用python写网络爬虫一

书名:《用python写网络爬虫》,通过阅读并记录去学习,如果文章有什么错误的地方还希望指正
本文参考了http://blog.csdn.net/u014134180/article/details/55506864

1、背景调研

1.1检查robots.txt

大多数网站都会定义robots.txt文件,这样可以让爬虫了解爬取该网站
时存在哪些限制。这些限制虽然仅仅作为建议给出

url+"/robot.txt"的方式在浏览器中进行访问
例:http://www.jianshu.com/robot.txt

1.2检查网站地图

网站提供的Sitemap 文件(即网站 地图 ) 可以帮助爬虫定位网站 最新的内容
一般在robots.txt给出

例: http://example.webscraping.com/sitemap.xml

1.3 估算网站的大小

使用site 关键词 对我们的示例网站 进行搜索的结果 , 即在
Google 中搜索 site: exam ple. webscra ping. com o

1.4检查网站所用技术

使用builtwith 模块

import builtwith
strd=builtwith.parse('http://www.jianshu.com')

1.5 寻找网站所有者

使用whois模块

 import whois
 print whois.whois('jianshu.com')

2编写第一个网络爬虫

抓取网站,首先需要下载包含感兴趣的数据的网页,这过程被称为爬(crawling)
常用的爬取网站的常见方法:

  • 爬取网站地图
  • 遍历每个网友的数据库ID
  • 跟踪网页链接

2.1下载网页

使用requests模块下载
关于requests的使用
http://docs.python-requests.org/zh_CN/latest/user/quickstart.html
下载网页

import requests
def download(url):
    print('Downloading:', url)
    html =requests.get(url).text
    return html
#print(download1('https://www.jianshu.com'))

1重试下载
当服务器过载返回503 Service Unavailable错误,我们可以尝试重新下载。如果是404 Not Found这种错误,说明网页目前并不存在,尝试两次请求也不会有不同结果。

import requests
def download(url,num_retries=2):
    response = requests.get(url)
    if num_retries > 0:
        if 500 <=response.status_code < 600:
            return download(url, num_retries-1)
    return response.text

2.设置用户代理(user_agent)
一些网站还会封禁这个默认用户代理。所以我们要重新设置用户代理

import requests
def download(url, user_agent='jians', num_retries=2):
    headers = {'User-agent': 'my-app/0.0.1'}
    response = requests.get(url, headers=headers)
    if num_retries > 0:
        if 500 <=response.status_code < 600:
            return download(url, num_retries-1)
    return response.text

2.2网站地图爬虫

在 第一个简单的爬虫中 , 我们将 使 用示例网站 robots. tx t文 件中发现的网站 地图来下载所有网页。为 了解析网站 地图 , 我们将会使用一个简单的
正则表达 式 , 从 < loc > 标签中提 取 出URL。 而 在
下 一 章中 , 我们将会 介绍一种更加健壮的解析方法 一- css 选择器

# 网站地图爬虫,需要有sitemap.xml文件
def crawl_sitemap(url):
    # download the sitemap file
    sitemap = download(url)
    # extract the sitemap links
    links = re.findall('<loc>(.*?)</loc>', sitemap)
    # download each link
    for link in links:
        print link
#调用crawl_sitemap
# url_str = "http://example.webscraping.com/sitemap.xml"
# crawl_sitemap(url_str)

2.3 ID遍历爬虫


由于这些URL只有后缀不同,所有我们可以遍历ID下载所有国家页面。

def id_by_download():
    # 实现 的爬虫连续5次下载错误才会停止遍历,这样很大
    # 程度降低了遇到被删除记录时过早停止遍历的风险
    max_errors = 5
    num_errors = 0
    for page in range(20):
        url = 'http://example.webscraping.com/view/-%d' % page
        html = download(url)
        if html is None:
            num_errors += 1
            if num_errors == max_errors:
                break
        else:
            num_errors = 0

不足:在爬取 网站 时, 遍历ID是一个很便捷 的方法,但是和网站 地图爬虫一样,
这种方法也无法保证始终可用。 比如, 一些网站 会检查页面 别名是否满足预
期 ,如 果不是 , 则会 返回 404 Not Found 错 误 。 而另一些网站
则会使用非连续大数作为ID , 或是不使用数值作为ID, 此 时 遍历就难以发挥其作用了。

2.4 链接爬虫

通过跟踪所有链接的方式, 我们可以很容易地下载整个网站 的页面。但是,
这种 方法会 下载大量我们并不需要的网页

import re
def link_crawler(seed_url, link_regex):
    '''craw from the given seed URL following links matched by link_regex'''
    crawl_quene = [seed_url]
    while crawl_quene:
        url = crawl_quene.pop()
        html = download(url)
        for link in get_links(html):
            if re.match(link_regex, link):
                crawl_quene.append(link)
def get_links(html):
    # a regular expression to extract all link from the webpage
    webpage_regex = re.compile('<a[^>]+href=["\'](.*?)["\']', re.IGNORECASE)
    # list of all link from the webpage
    return webpage_regex.findall(html)
#link_crawler('http://example.webscraping.com/', '/(index|view)')

由于/index/1是相对链接,浏览器可以识别,但urllib2无法知道上下文,所有我们可以用urlparse模块来转换为绝对链接。修改代码link_crawler方法,导入

import urlparse
import re
def link_crawler(seed_url, link_regex):
    '''craw from the given seed URL following links matched by link_regex'''
    crawl_quene = [seed_url]
    while crawl_quene:
        url = crawl_quene.pop()
        html = download(url)
        for link in get_links(html):
            if re.match(link_regex, link):
                link = urlparse.urljoin(seed_url,link)
                crawl_quene.append(link)

避免重复爬取相 同 的 链接, 我 们 需要记录哪些
链接己 经 被爬取过。 下 面是修改后的 link crawler函数,己具备存储己发
现URL 的功能, 可以避免重复下载 ,
修改修改代码link_crawler方法

import urlparse
import re
def link_crawler(seed_url, link_regex):
    '''craw from the given seed URL following links matched by link_regex'''
    crawl_quene = [seed_url]
    seen = set(crawl_quene)
    while crawl_quene:
        url = crawl_quene.pop()
        html = download(url)
        for link in get_links(html):
            if re.match(link_regex, link):
                link = urlparse.urljoin(seed_url,link)
                if link not in seen:
                    crawl_quene.append(link)```
###高级功能
####解析robots.txt
robotparser模块首先加载robots.txt文件,然后通过can_fetch()函数确定指定的用户代理是否允许访问网页,通过python 自带robotparser解析robots.txt文件

import robotparser
def get_robots(url):
# 解析robots.txt
rp = robotparser.RobotFileParser()
rp.set_url(urlparse.urljoin(url, "/robots.txt"))
rp.read()
return rp
url = 'http://example.webscraping.com'
rp = get_robots(url)
user_agent = 'GoodCrawler'
rp.can_fetch(user_agent, url)

####下载限速
如果我们 爬 取 网站 的速度过快,就会 面 临 被封禁或是造成服务 器过载的 风
险。为了降低这些风险,我们可以在两次下载之间添加 延 时,从而对爬 虫 限
速。下面是实现了该功能的 类的代码。

class Throttle:
'''add a delay between downloads to the same domain'''
def init(self, delay):
# amount of delay between downloads for each domain
self.delay = delay
self.domain = {}

def wait(self, url):
    domain = urlparse.urlparse(url).netloc
    last_accessed = self.domain.get(domain)
    if self.delay > 0 and last_accessed is not None:
        sleep_secs = self.delay - (datetime.datetime.now()-last_accessed).seconds
        if sleep_secs > 0:
            time.sleep(sleep_secs)
    self.domain[domain] = datetime.datetime.now()

Throttle类记录每个上次访问的时间,如果当前时间距离上次访问时间小于指定延

时,则执行睡眠操作。我们可以在每次下载之前调用Throttle对爬虫进行限速。

throttle = Throttle(delay)

throttle.wait(url)

result =download(url,headers,proxy=proxy,num_retries=num_retries)

####避免爬虫陷阱
目前,我们的爬虫会跟踪所有之前没有访问过的链接。但是,一些网站 会
动态 生 成页面内容, 这样就会出现无限多 的网 页。 比如, 网站 有一个在线日
历功能,提供 了 可以访问下个月和 下 一年 的 链接,那么下个月 的页面 中同样
会 包含访问再下个月 的 链接, 这样页面就会 无止境地链接下 去。 这种 情况被
称为 爬虫 陷阱。
想要避免陷入 爬虫陷阱,一个简单的方 法是记录到达当前网 页经过 了多少
个链接, 也就是深度。 当到达最大深度 时 , 爬虫就不 再 向队列 中 添加该网 页
中的 链接了。 要实现这一功能, 我们需 要 修改 see n 变量。
该 变量原先只记录访问过的网页链接, 现在修改为一个字典, 增 加了页面深度 的 记录。
修改link_crawler方法

def link_crawler(seed_url, link_regex,max_depth=2):
'''craw from the given seed URL following links matched by link_regex'''
crawl_queue = [seed_url]
seen = {seed_url: 0}
while crawl_queue:
url = crawl_queue.pop()
html = download(url)
depath = seen[url]
if depath != max_depth:
for link in get_links(html):
if re.match(link_regex, link):
link = urlparse.urljoin(seed_url, link)
if link not in seen:
seen[link] = depath+1
crawl_queue.append(link)
else:
print('Bldoked by robots.txt:', url)

####最终版本
这个高级链接爬虫的完整 源代码可以在 https: //bitbucket. org/
wswp/code /src/t ip/chapter01/link_cra wler3.p y下载得到
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,313评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,369评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,916评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,333评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,425评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,481评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,491评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,268评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,719评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,004评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,179评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,832评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,510评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,153评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,402评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,045评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,071评论 2 352

推荐阅读更多精彩内容