网络爬虫基本概念

1 . 数据来源:

企业产生的用户数据

政府/机构提供的公开数据

第三方数据平台购买数据

爬虫爬取数据

2 . 爬虫的定义 : 爬虫又称网页蜘蛛,网络机器人,是一种按照一定规则,自动抓取互联网上相应的信息。

3 . 爬虫的工作原理 :

      1 . 网页三大特征:

1 . 有自己唯一的URL(统一资源定位器)一个URL是由四部分组成:“协议,域名,路径,参数”。

              2 . 都是使用HTML来描述页面

              3 . 都使用HTTP/https(超文本传输协议)来传输HTML数据

      2 . 爬虫的设计思路:

              1 . 指定需要爬取的URL地址

              2 . 通过HTTP/HTTPS获取对应的HTML页面

              3 . 提取需要的数据

      3 . 为什么选择python做爬虫?

              :代码简洁,效率高,模块多,调用其他接口也方便

4 . 爬虫的分类

        通用爬虫和聚焦爬虫

              通用爬虫:抓取互联网所有的资源。例如:百度,谷歌等搜索引擎。

              聚焦爬虫:可以选择性的抓取需要的数据

5 . DNS(domain Name System)是“域名系统”的英文缩写,用于将域名转换成ip地址

6 . HTTP/https协议:

      协议概念:通信计算机双方必须遵守的约定

HTTP协议:超文本传输协议,是一个基于请求与响应,无状态的应用层协议

https协议:是以安全为目标的HTTP通道,建立一个信息安全的通道,保证数据传输的安全

7 . HTTP三次握手和四处挥手

      三次握手:是指建立链接时,需要客户端和服务器总共发送三个包,进行三次握手的主要作用就是为了确认双方接收能力和发送能力是否正常

      四次挥手:断开链接时,第一次挥手:客户端发送一个请求用来关闭客户端与服务器的数据传输,第二次挥手:服务器收到客户端发来的请求,第三次挥手:服务器关闭与客户端的链接,并发送一个请求给客户端,第四次挥手:关闭链接

————————————————

版权声明:本文为CSDN博主「weixin_45331436」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/weixin_45331436/article/details/124299838

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容