CSDN对所有爬虫都不允许爬取整个scripts目录,整个public目录,以及css、images、content、ui、js、scripts目录下的子目录;
爱奇艺对所有爬虫都不允许爬取包含?的所有网址以及lib目录下的pps\iqy\pstyle\lstyle\mac等五个目录下的所以子目录;
简书对所有爬虫都不允许爬取整个search目录,以及notes目录下的子目录,admin下的子目录,p目录下的0826cf4692f9、d8b31d20a867两个目录collections
目录下的所有包含recommended_authors目录的所有目录;
目前,信息技术发展越来越快,每个人在每一天都会产生大量的数据,这使得人们对于网络信息安全越来越关注。没有人想要活在一个完全透明的社会中,robots协议明示了搜索引擎,哪些内容是愿意和允许被搜索引擎收录的,哪些则不允许,这保障了人们的隐私安全,它使得我们能够放心的使用网络。