摘要
robots协议全称是“网络爬虫排除标准”,它意在规范爬虫程序的行为。一个网站的robots协议就是在告诉
爬虫程序什么页面可以爬取,什么页面不可以爬虫,以及禁止某些爬虫程序等。不过robots协议并没有
形成法律的规范,仍然属于道德层面的约束。
robots协议的内容规范
User-agent: 表明爬虫名字
Disallow: 表示禁止爬取的页面
Allow: 表示允许爬取的页面
Sitemap: 表示网站地图
*: 表示任意长度的任意字符
$: 表示结尾
/: 表示这级文件夹下的所有文件
可以发现,这和这正则表达式有点相似,不过,?和.没有特别的含义,/也不需要转义
有关页面的写法:
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
常用的写法:
- 允许所有的爬虫爬取任何页:
User-agent: *
Disallow: - 禁止除特定爬虫A以外的爬虫爬取页面:
User-agent: A
Disallow:
User-agent: *
Disallow: /
查看一个网站的robots协议
在浏览器中网址一栏网站的根目录加上/robots.txt即可,如https://www.baidu.com/robots.txt表示访问百度的robots协议
解析robots.txt
通过urllib.robotparser模块解析robots协议
解析过程分为:
- 创建一个RobotFileParser对象
- 通过对象的set_url()方法获取robots.txt
- 读取robots.txt的内容
这样创建的RobotFileParser对象就与这个robots.txt的内容联系起来了 - 判断某个User-agent(爬虫名)是否可以爬取某个url,比如Spider1,是否可以爬取url1,可以使用:
can_fetch(Spider1, url1)
说明
以下代码默认已导入robotparser模块
<code lang="python">
from urllib import robotparser
</code>
下面列举一个例子:
判断BadSipder爬虫是否可以爬取https://www.baidu.com,代码如下:
def parseRobots(url):
'获取解析robots.txt的RobotFileParser对象'
try:
rp = robotparser.RobotFileParser()
rp.set_url(url) # 获取robots.txt
rp.read() # 读取robots.txt
return rp
except:
return "出现异常"
url = "https://baidu.com/robots.txt"
rp = parseRobots(url)
user_agent = "Badspider"
web = "https://baidu.com"
print(rp.can_fetch(user_agent, web))