Python爬虫urllib2的异常错误处理

1. urllib2的异常错误处理

在我们用urlopen或opener.open方法发出一个请求时,如果urlopen或opener.open不能处理这个response,就产生错误。

URLError

URLError产生的原因主要有:

    没有网络连接

    服务器连接失败

    找不到指定的服务器

我们可以用try except语句来捕获相应的异常。下面的例子里我们访问了一个不存在的域名:

# urllib2_urlerror.py

import urllib2

request = urllib2.Request("http://www.ajkfhafwjqh.com")

try:

    urllib2.urlopen(request,timeout=5)

    except urllib2.URLError, err:

        print err

运行结果如下:

urlopen error,错误代码8,错误原因是没有找到指定的服务器。

HTTPError

HTTPError是URLError的子类,我们发出一个请求时,服务器上都会对应一个response应答对象,其中它包含一个数字"响应状态码"。

如果urlopen或opener.open不能处理的,会产生一个HTTPError,对应相应的状态码,HTTP状态码表示HTTP协议所返回的响应的状态。

注意,urllib2可以为我们处理重定向的页面(也就是3开头的响应码),100-299范围的号码表示成功,所以我们只能看到400-599的错误号码。

# urllib2_httperror.py

import urllib2

request = urllib2.Request("http://www.itcast.cn/blog")

try:

    urllib2.urlopen(request)

    except urllib2.HTTPError, err:

        print err.code

        print err

运行结果如下:

404

HTTP Error 404: Not Found

HTTP Error,错误代号是404,错误原因是Not Found,说明服务器无法找到

通常产生这种错误的,要么url不对,要么ip被封。

2. 改进版

由于HTTPError的父类是URLError,所以父类的异常应当写到子类异常的后面,所以上述的代码可以这么改写:

# urllib2_botherror.py

import urllib2

request = urllib2.Request("http://www.itcast.cn/blog")

try:

urllib2.urlopen(request)

except urllib2.HTTPError, err:

    print err.code

    except urllib2.URLError, err:

    print err

else:

print "Good Job"

3. 验证有几个代理能用

验证有几个代理能用,不能用的抛出异常

# -*- coding:utf-8 -*-

import urllib2

URLERRORCODE = 777

def can_use_proxy(request, openner, URLERRORCODE):

    try:

        response = openner.open(request,timeout=3)

        returnresponse.getcode()

    except urllib2.HTTPError,err:

        return err.code

    except urllib2.URLError,err:

        return URLERRORCODE

if __name__ == '__main__':

    # 1.大量proxy free

    proxy_list = [

    {"https":"117.69.142.196:808"},

    {"http":"101.68.73.54:53281"},

    {"http":"113.87.161.227:8118"},

    {"http":"114.245.149.215:8118"},

    {"http":"195.5.40.109:3128"}

    ]

    #验证有几个能用

    can_use_list = []

    for proxy in proxy_list:

        headers ={"User-Agent": "Mozilla/5.0 (Windows NT 10.0;     WOW64;Trident/7.0; rv:11.0) like Gecko"}

        request =urllib2.Request("http://www.baidu.com", headers=headers)

        #创建 代理处理器

        proxy_handler =urllib2.ProxyHandler(proxy)

        openner =urllib2.build_opener(proxy_handler)

        #验证

        code =can_use_proxy(request, openner, URLERRORCODE)

            print code

4. HTTP响应状态码参考

1xx:信息

100Continue

服务器仅接收到部分请求,但是一旦服务器并没有拒绝该请求,客户端应该继续发送其余的请求。

101Switching Protocols

服务器转换协议:服务器将遵从客户的请求转换到另外一种协议。

2xx:成功

200OK

请求成功(其后是对GET和POST请求的应答文档)

201Created

请求被创建完成,同时新的资源被创建。

202Accepted

供处理的请求已被接受,但是处理未完成。

203Non-authoritative Information

文档已经正常地返回,但一些应答头可能不正确,因为使用的是文档的拷贝。

204No Content

没有新文档。浏览器应该继续显示原来的文档。如果用户定期地刷新页面,而Servlet可以确定用户文档足够新,这个状态代码是很有用的。

205Reset Content

没有新文档。但浏览器应该重置它所显示的内容。用来强制浏览器清除表单输入内容。

206Partial Conten

t客户发送了一个带有Range头的GET请求,服务器完成了它。

3xx:重定向

300Multiple Choices

多重选择。链接列表。用户可以选择某链接到达目的地。最多允许五个地址。301Moved Permanently

所请求的页面已经转移至新的url。

302Moved 

Temporarily所请求的页面已经临时转移至新的url。

303See Other所请求的页面可在别的url下被找到。

304Not Modified

未按预期修改文档。客户端有缓冲的文档并发出了一个条件性的请求(一般是提供If-Modified-Since头表示客户只想比指定日期更新的文档)。服务器告诉客户,原来缓冲的文档还可以继续使用。

305Use Proxy

客户请求的文档应该通过Location头所指明的代理服务器提取。

306Unused此代码被用于前一版本。目前已不再使用,但是代码依然被保留。307Temporary Redirect被请求的页面已经临时移至新的url。

4xx:

客户端错误400Bad Request服务器未能理解请求。

401Unauthorized

被请求的页面需要用户名和密码。

401.1

登录失败。

401.2

服务器配置导致登录失败。

401.3

由于 ACL 对资源的限制而未获得授权。

401.4

筛选器授权失败。

401.5ISAPI/CGI 

应用程序授权失败。

401.7

访问被 Web 服务器上的 URL 授权策略拒绝。这个错误代码为 IIS6.0所专用。402

Payment Required此代码尚无法使用。

403Forbidden

对被请求页面的访问被禁止。

403.1执行访问被禁止。

403.2读访问被禁止。

403.3写访问被禁止。

403.4要求 SSL。

403.5要求 SSL128。

403.6IP 地址被拒绝。

403.7要求客户端证书。

403.8站点访问被拒绝。

403.9用户数过多。

403.10配置无效。

403.11密码更改。

403.12拒绝访问映射表。

403.13客户端证书被吊销。

403.14拒绝目录列表。

403.15超出客户端访问许可。

403.16客户端证书不受信任或无效。

403.17客户端证书已过期或尚未生效。

403.18在当前的应用程序池中不能执行所请求的 URL。这个错误代码为 IIS6.0所专用。

403.19不能为这个应用程序池中的客户端执行 CGI。这个错误代码为 IIS6.0所专用。

403.20Passport 登录失败。这个错误代码为 IIS6.0所专用。

404Not Found服务器无法找到被请求的页面。

404.0没有找到文件或目录。

404.1无法在所请求的端口上访问 Web 站点。

404.2Web 服务扩展锁定策略阻止本请求。

404.3MIME 映射策略阻止本请求。

405Method Not Allowed请求中指定的方法不被允许。

406Not Acceptable服务器生成的响应无法被客户端所接受。

407Proxy Authentication Required用户必须首先使用代理服务器进行验证,这样请求才会被处理。

408Request Timeout请求超出了服务器的等待时间。

409Conflict由于冲突,请求无法被完成。

410Gone被请求的页面不可用。

411Length Required"Content-Length"未被定义。如果无此内容,服务器不会接受请求。

412Precondition Failed请求中的前提条件被服务器评估为失败。

413Request Entity Too Large由于所请求的实体的太大,服务器不会接受请求。

414Request-url Too Long由于url太长,服务器不会接受请求。当post请求被转换为带有很长的查询信息的get请求时,就会发生这种情况。415Unsupported Media Type由于媒介类型不被支持,服务器不会接受请求。416Requested Range Not Satisfiable服务器不能满足客户在请求中指定的Range头。

417Expectation Failed执行失败。423锁定的错误。

5xx:服务器错误500Internal Server Error请求未完成。服务器遇到不可预知的情况。

500.12应用程序正忙于在 Web 服务器上重新启动。

500.13Web 服务器太忙。

500.15不允许直接请求 Global.asa。

500.16UNC 授权凭据不正确。这个错误代码为 IIS6.0所专用。

500.18URL 授权存储不能打开。这个错误代码为 IIS6.0所专用。

500.100内部 ASP 错误。

501Not Implemented请求未完成。服务器不支持所请求的功能。

502Bad Gateway请求未完成。服务器从上游服务器收到一个无效的响应。502.1CGI 应用程序超时。 ·

502.2CGI 应用程序出错。

503Service Unavailable请求未完成。服务器临时过载或当机。

504Gateway Timeout网关超时。

505HTTP Version Not Supported服务器不支持请求中指明的HTTP协议版本

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,076评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,658评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,732评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,493评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,591评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,598评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,601评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,348评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,797评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,114评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,278评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,953评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,585评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,202评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,180评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,139评论 2 352

推荐阅读更多精彩内容

  • 一、网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spide...
    随风化作雨阅读 1,087评论 0 0
  • 一、概述 urllib2是Python的一个针对URLs的库。他以urlopen函数的形式提供了一个非常简单的...
    MiracleJQ阅读 1,485评论 0 5
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,647评论 18 139
  • 1 前言 作为一名合格的数据分析师,其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
    whenif阅读 18,070评论 45 523
  • 身在小学教学一线,面对一群6到12岁的孩子,经常会遇到有些家长在面对自己孩子学习上出现了种种困难时抱怨:“人...
    一笑随风阅读 765评论 6 4