爬虫知识

爬虫知识

通用网络爬虫：

1，获取初始的url

2，根据初始的url爬取页面并获得新的url

3，将新的url放到url队列中

4，从url队列中读取新的url，并根据新的url爬起网页，同时从新网页中获取新url，并重复上述过程

5，满足爬虫系统设置的停止条件时，停止爬取

聚焦网络爬虫：

-------对爬取目标的定义和描述

-------获取初始的url

-------根据初始的url爬取页面，并获得新的url

-------从新的url中过滤掉与爬取目标无关的链接

-------将过滤后的链接放的url队列中

-------从url队列中，根据搜索算法，确定url的优先级，并确定下一步要爬取的url地址

-------从下一步要爬取的url地址中，读取新的url，然后依据新的url地址爬取网页，并重复上述爬取过程

------满足爬虫的停止条件时或无法获取新的url时停止爬。

一般url标准中只会允许一部分ASCII字符入数字、字母、部分符号等，如果是汉字或以下特殊字符比如：&等就需要编码。

服务器收到浏览器发送的消息后，能够根据浏览器发送消息的内容，做相应处理，然后把消息回传给浏览器。这个过程叫做HTTP Response。浏览器收到服务器的Response信息后，会对信息进行相应处理，然后展示。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。