爬虫-原理和流程

爬虫原理

模拟浏览器发送网络请求，接收请求响应

爬虫分类

通用爬虫：搜索引擎的爬虫
聚焦爬虫：针对特定网站的爬虫
积累式爬虫：从开始运行到达到停止条件过程中不断爬取数据，会进行去重操作
增量式爬虫：只爬取新产生或者发生变化网页的爬虫
深网爬虫：隐藏在搜索表单或登录表单之后的数据，需要用户提交关键词才能登陆并获得的页面（比如某网站VIP会员）

爬虫流程

1.向起始url发送请求，并获取响应
2.对响应进行提取
——如果提取url，则继续循环①
——如果提取数据，则将数据进行保存

robots协议

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol）
网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。
Robots协议是一个道德层面的约定，爬虫作者无需遵守该协议

最后编辑于：2018.12.26 18:38:00

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。