登录注册写文章

Robots协议

Robots协议

1 Robots Exclusion Standard 网络爬虫排除标准

作用: 网站告知网络爬虫哪些页面可以抓取, 哪些不行
形式: 在网站的<strong>根目录</strong>下的robots.txt文件,在这个文件中, 写明了哪些目录是可以被允许被爬取的, 哪些是不被允许的

examples:
**** https://www.jd.com/robots.txt ****
**** https://www.baidu.com/robots.txt ****
****http://www.qq.com/robots.txt ****
****http://news.qq.com/robots.txt ****
**** http://www.moe.edu.cn/robots.txt(无robots协议) ****
etc.

<em>如果一个网站不提供robots协议, 那么默认为该网站可以被任何爬虫爬取其资源</em>

2 robots协议遵守方式

网络爬虫: 自动或者人工识别robots.txt文件, 在进行内容爬取
约束性: 可以不遵守, 但是要承担响应的法律责任

最后编辑于：2017.12.06 01:35:54

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

爬虫的"盗亦有道"-Robots协议
网络爬虫的君子协议网络爬虫的尺寸网络爬虫引发的问题性能骚扰法律风险隐私泄露网络爬虫的"性能骚扰"web...
若与阅读 33,800评论 2赞 43
关于购物网站及网页小游戏的robots协议
Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion P...
十三不好听阅读 4,968评论 0赞 0

《Python网络爬虫》2.2 Robots协议
By 一页编程什么是Robots协议 Robots是机器人的意思，那Robots协议是什么呢？ Robots协...
一页编程阅读 5,269评论 0赞 1
大阿尔卡纳——个人成长的英雄之旅章
大阿尔卡纳——78张塔罗牌中的22张大牌，代表着人生的重大课题。从愚人牌到世界牌的过程，就是人生从混沌初生...
玉小妖阅读 4,890评论 0赞 5
爱的口号2015.6.11
今天是中考的第二天，早晨七点到八点给我们安排了一个小时的数学辅导，九点才开始考试！早晨六点起床，洗漱后六点半去学...
胡宝琴阅读 3,365评论 0赞 2

赞1赞

赞赏

手机看全文