认识robots协议

robots协议的作用:

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。是网络资源提供者与搜索引擎之间的道德约定。

robot协议的位置:

robots.txt文件应该放在网站根目录下。举例来说,当robots访问一个网站(比如http://www.abc.com)时,首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

解析亚马逊网站的robots协议:

1.浏览器地址栏输入:https://www.amazon.com/robots.txt,查看robots协议

User-agent: * ——表示所列规则对所有爬虫都适用
此外,亚马逊还对两个爬虫代理进行了特殊规定:

User-agent: Googlebot

User-agent: EtaoSpider

被User-agent指明的爬虫代理,还需遵守User-agent: agentName下所列规则。

2.查看User-agent: *下,Allow项

Allow: /wishlist/universal* #####表示允许爬虫代理访问,wishlist目录下,所有以universal开头的内容

Allow: /wishlist/vendor-button*    
Allow: /wishlist/get-button*    
Allow: /gp/wishlist/universal*   
Allow: /gp/wishlist/vendor-button*   
Allow: /gp/wishlist/ipad-install*  
Allow: /gp/dmusic/promotions/PrimeMusic     #####表示允许爬虫代理访问,PrimeMusic目录下的所有内容
Allow: /gp/dmusic/promotions/AmazonMusicUnlimited
Allow: /gp/offer-listing/B000
Allow: /gp/offer-listing/9000
3.查看Allow项对应的网页内容

1)wishlist:
Image.png

2)PrimeMusic:
Image [2].png

3)AmazonMusicUnlimited
Image [3].png
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion P...
    十三不好听阅读 1,331评论 0 0
  • 网络爬虫的君子协议 网络爬虫的尺寸 网络爬虫引发的问题 性能骚扰 法律风险 隐私泄露 网络爬虫的"性能骚扰"web...
    若与阅读 33,859评论 2 43
  • 网络爬虫引发的问题:性能骚扰、法律风险、隐私泄露。网络爬虫的"性能骚扰":web服务器默认接受人类访问,受限于编写...
    SandyMeow阅读 1,505评论 0 0
  • 说相思,道相思, 多情相思无情苦, 相思无计可消除。 一曲相思春又暮, 相思未解人已故。 劝君从此莫相思, 相思一...
    有兔茕茕阅读 389评论 53 13
  • 一点点,一天天,就在那里无声地努力,不焦不躁,无怨无悔,凭着这样的韧劲,凭着这样的功夫,才有了所谓的天才。...
    冰夫阅读 210评论 0 0

友情链接更多精彩内容