一、什么是robots.txt?
文本文件,只是一个协议,而不是一个命令,告诉蜘蛛程序在服务器上什么文件是可以被查看的。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。
二、分析
豆瓣:
User-agent: *
Disallow: /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /forum/
Disallow: /new_subject
Disallow: /service/iframe
Disallow: /j/
Disallow: /link2/
Disallow: /recommend/
Disallow: /trailer/
Disallow: /doubanapp/card
Sitemap: https://www.douban.com/sitemap_index.xml
Sitemap: https://www.douban.com/sitemap_updated_index.xml
# Crawl-delay: 5
User-agent: Wandoujia Spider
Disallow: /
User-agent: * 表示针对于任何的用户代理,都不允许爬取他“Disallow:”中的内容,个人觉得豆瓣之所以屏蔽对于这些内容的爬取特别是关于search方面的内容,是因为search方面的东西都是他们花费了很多精力进行的,所以为了维护自己的劳动成果或者说是相对权益才会禁止其他用户代理去爬取这些方面的数据。
“# Crawl-delay: 5” 表示两次下载请求之间应延迟5秒抓取,这样做是为了避免服务器过载。
User-agent: Wandoujia Spider Disallow: / 表示禁止用户代理为Wandoujia的爬虫爬取该网站。我觉得可能要么是因为豌豆荚的爬虫爬取他的数据影响性能,要么就是因为两者是竞争关系,所以因为某些利益纠葛禁止豌豆荚爬取他的数据。
Sitemap: 网站地图,告诉爬虫这个页面是网站地图。
淘宝:
User-agent: Baiduspider
Allow: /article
Allow: /oshtml
Allow: /wenzhang
Disallow: /product/
Disallow: /
User-Agent: Googlebot
Allow: /article
Allow: /oshtml
Allow: /product
Allow: /spu
Allow: /dianpu
Allow: /wenzhang
Allow: /oversea
Disallow: /
User-agent: Bingbot
Allow: /article
Allow: /oshtml
Allow: /product
Allow: /spu
Allow: /dianpu
Allow: /wenzhang
Allow: /oversea
Disallow: /
User-Agent: 360Spider
Allow: /article
Allow: /oshtml
Allow: /wenzhang
Disallow: /
User-Agent: Yisouspider
Allow: /article
Allow: /oshtml
Allow: /wenzhang
Disallow: /
User-Agent: Sogouspider
Allow: /article
Allow: /oshtml
Allow: /product
Allow: /wenzhang
Disallow: /
User-Agent: Yahoo! Slurp
Allow: /product
Allow: /spu
Allow: /dianpu
Allow: /wenzhang
Allow: /oversea
Disallow: /
User-Agent: *
Disallow: /
淘宝针对于各大代理,除了Allow:下的文件夹可以爬取外,其他的内容都是禁止爬取的。以前淘宝是屏蔽了百度的爬取的,现在虽然对百度蜘蛛开放部分目录了,但是大多是和文章资讯相关,而淘宝店铺之类的目录依然是屏蔽状态。我觉得主要是因为近年来各大电商发展迅速,淘宝的流量受到了一定的冲击,但是淘宝又不想自己的流量大部分都是通过百度获取的,所以淘宝只开放一部分内容供百度抓取,目的就是为了通过百度获得一定的流量。
参考链接:
豆瓣的robots内容分析
python爬虫系列:知己知彼
淘宝robots.txt解禁部分百度蜘蛛,你怎么看?
robots协议