爬虫-原理和流程

爬虫原理

模拟浏览器发送网络请求,接收请求响应

爬虫分类

通用爬虫:搜索引擎的爬虫
聚焦爬虫:针对特定网站的爬虫
积累式爬虫:从开始运行到达到停止条件过程中不断爬取数据,会进行去重操作
增量式爬虫:只爬取新产生或者发生变化网页的爬虫
深网爬虫:隐藏在搜索表单或登录表单之后的数据,需要用户提交关键词才能登陆并获得的页面(比如某网站VIP会员)

爬虫流程

1.向起始url发送请求,并获取响应
2.对响应进行提取
——如果提取url,则继续循环①
——如果提取数据,则将数据进行保存

robots协议

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol)
网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
Robots协议是一个道德层面的约定,爬虫作者无需遵守该协议

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容