登录注册写文章

Python爬虫之robots协议

Python爬虫之robots协议

网络爬虫有时候也会引发很多的问题

由于编写的爬虫的性能和其他原因，可能会对Web服务器带来巨大的资源开销
服务器上的数据有产权归属网络爬虫获取数据后牟利将带来法律风险
网络爬虫可能具备突破简单访问控制的能力，获得被保护数据从而泄露个人隐私

所以，一般部分网站会给出限制网路爬虫的协议，这就是robots协议。

来源审查：判断User‐Agent进行限制
检查来访HTTP协议头的User‐Agent域，只响应浏览器或友好爬虫的访问
发布公告：Robots协议
告知所有爬虫网站的爬取策略，要求爬虫遵守

robots协议的全名为Robots Exclusion Standard，网络爬虫排除标准
作用：
网站告知网络爬虫哪些页面可以抓取，哪些不行
形式：
在网站根目录下的robots.txt文件

案例

京东的robots协议
https://www.jd.com/robots.txt

image.png

image.png

意思就是
对于所有的user-agent：
不可以访问一下url
Disallow: /?*
Disallow: /pop/.html
Disallow: /pinpai/.html?*
对于其他几个user-agent是禁止爬虫的，我们看一下就是一淘这些淘宝的搜索引擎，也难怪京东和淘宝哈哈哈

实际中如何遵守robots协议

网络爬虫：
自动或人工识别robots.txt，再进行内容爬取
约束性：
Robots协议是建议但非约束性，网络爬虫可以不遵守，但存在法律风险

image.png

最后编辑于：2017.12.07 07:29:24

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

爬虫的"盗亦有道"-Robots协议
网络爬虫的君子协议网络爬虫的尺寸网络爬虫引发的问题性能骚扰法律风险隐私泄露网络爬虫的"性能骚扰"web...
若与阅读 33,859评论 2赞 43
《Python网络爬虫》2.2 Robots协议
By 一页编程什么是Robots协议 Robots是机器人的意思，那Robots协议是什么呢？ Robots协...
一页编程阅读 1,509评论 0赞 1

Python网络爬虫与信息提取（一）
Reference:第一周网络爬虫之规则单元1：Requests库入门 1-1 Requests库的安装 1-2...
mcdullsnow阅读 1,150评论 0赞 0
29/70 小控班 059 上海上海
因为31号参加行动派的课程，我带着小朋友和老公一起来到了魔都，这是第二次来上海了，之前对上海的印象不是太好，说不上...
思齐_yang阅读 191评论 0赞 0
KotlinPoet
简介 KotlinPoet是一个用于生成.kt源文件的Kotlin和Java的 API。源文件生成在进行诸如注释处...
好大一只龍阅读 2,286评论 0赞 1

友情链接更多精彩内容

2赞3赞

赞赏

手机看全文