1 Robots Exclusion Standard 网络爬虫排除标准
作用: 网站告知网络爬虫哪些页面可以抓取, 哪些不行
形式: 在网站的<strong>根目录</strong>下的robots.txt文件,在这个文件中, 写明了哪些目录是可以被允许被爬取的, 哪些是不被允许的
examples:
**** https://www.jd.com/robots.txt ****
**** https://www.baidu.com/robots.txt ****
****http://www.qq.com/robots.txt ****
****http://news.qq.com/robots.txt ****
**** http://www.moe.edu.cn/robots.txt(无robots协议) ****
etc.
<em>如果一个网站不提供robots协议, 那么默认为该网站可以被任何爬虫爬取其资源</em>
2 robots协议遵守方式
网络爬虫: 自动或者人工识别robots.txt文件, 在进行内容爬取
约束性: 可以不遵守, 但是要承担响应的法律责任