robot.txt文件解读

CSDN:blog.csdn.net/robots.txt

CSDN对所有爬虫都不允许爬取整个scripts目录,整个public目录,以及css、images、content、ui、js、scripts目录下的子目录;



爱奇艺:www.iqiyi.com/robots.txt 

爱奇艺对所有爬虫都不允许爬取包含?的所有网址以及lib目录下的pps\iqy\pstyle\lstyle\mac等五个目录下的所以子目录;

简书:www.jianshu.com/robots.txt

简书对所有爬虫都不允许爬取整个search目录,以及notes目录下的子目录,admin下的子目录,p目录下的0826cf4692f9、d8b31d20a867两个目录collections
目录下的所有包含recommended_authors目录的所有目录;

目前,信息技术发展越来越快,每个人在每一天都会产生大量的数据,这使得人们对于网络信息安全越来越关注。没有人想要活在一个完全透明的社会中,robots协议明示了搜索引擎,哪些内容是愿意和允许被搜索引擎收录的,哪些则不允许,这保障了人们的隐私安全,它使得我们能够放心的使用网络。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 网络爬虫的君子协议 网络爬虫的尺寸 网络爬虫引发的问题 性能骚扰 法律风险 隐私泄露 网络爬虫的"性能骚扰"web...
    若与阅读 33,713评论 2 43
  • 1 前言 作为一名合格的数据分析师,其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
    whenif阅读 18,105评论 45 523
  • 失业这么久以来我终于找到工作啦,可以有事做啦,很开心。今天第一天上班,啦啦啦啦啦啦啦啦啦啦。 ...
    d50eb695cfc7阅读 291评论 0 0
  • 在考虑了很久之后,我决定还是尽我自己的能力,去做自己力所能及的事,之前我也会有这种想法“就是反正这事又不关我什么事...
    曾艳芬微光站阅读 452评论 0 0
  • 第一声积雪化为浮云 蝈蝈还没睡醒 我,铺开万里无云 一日长三寸 一寸懵懂 一寸相思,还有 一寸六月里的笛音 我日日...
    蓝朵世界阅读 695评论 44 50