Robots协议

1 Robots Exclusion Standard 网络爬虫排除标准

作用: 网站告知网络爬虫哪些页面可以抓取, 哪些不行
形式: 在网站的<strong>根目录</strong>下的robots.txt文件,在这个文件中, 写明了哪些目录是可以被允许被爬取的, 哪些是不被允许的


examples:
**** https://www.jd.com/robots.txt ****
**** https://www.baidu.com/robots.txt ****
****http://www.qq.com/robots.txt ****
****http://news.qq.com/robots.txt ****
**** http://www.moe.edu.cn/robots.txt(无robots协议) ****
etc.

<em>如果一个网站不提供robots协议, 那么默认为该网站可以被任何爬虫爬取其资源</em>

2 robots协议遵守方式

网络爬虫: 自动或者人工识别robots.txt文件, 在进行内容爬取
约束性: 可以不遵守, 但是要承担响应的法律责任

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容