Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
故事的起源是这样的,最初的开发者Martijn Koster发现,他的网站被爬虫程序(crawler)所淹没。被爬虫抓取这件事是把双刃剑。良好的爬取可以提高网站的排名,而恶意的爬取可能会导致服务器压力暴增而导致崩溃。所以为了减轻服务器的压力,他在1994年开发了初版标准。
如果做过SEO的朋友,其中一项就是设置良好的robots.txt。对于想要推广网站的公司来说,对于Google、百度这样的搜索引擎的爬虫爬取是有益的,这样可以增加网站的排名。基于鉴于网络安全与隐私的考虑。在淘宝的robots中,则拒接了来自百度蜘蛛的爬取。
其实在很长一段时间内,很多人不知道Robots协议,直到百度和360从2012年起的一场“屏蔽和反屏蔽”的大战中,把 Robots协议 成为了媒体热词。让他在新闻界中跨界成名。
因为Robots协议不是什么技术上的壁垒,他是一种君子协议,比如双方打架说好不用刀,拳拳肉搏,结果其中一个竟然关键时刻 暗箭伤人。
自从它出现以来,它并没有成为一项官方的标准,所以解读该协议的方式也不一样,它也没有及时更新以适应的现代使用场合。
直到2019年7月1日,谷歌开源了Robots Exclusion Protocol(REP),就是我们说的robots.txt,同时也开源了匹配的C++库。
谷歌现在已经创建了REP文档草案,并已将提案提交给互联网工程任务组(IETF),该组织负责推广自愿的互联网标准。