一、Net_Crawler-urllib库使用

一、urllib.requet

  • urllib.request

用来发送请求获取响应

response_obj =urllib.request.urlopen(url) 获得HTTPResponse object 响应对象 

response_obj.read()       # 获取的是二进制数据
response_obj.read().decode()   # 将数据转化为字符串(默认utf8编码)

response_obj.readline()     # 按行读取
response_obj.readlines()    # 获取多行 装入列表
response_obj.getcode()      # 服务器响应的状态码
response_obj.geturl()       # 响应的来源
response_obj.getheaders()   # 获取响应头   


# 传入 url路径 和 本地的路径(将来获取数据存到哪里)
# 图片
urllib.request.urlretrieve(img_url,'./download/pengyou.jpg')


# 文本
text_url = 'http://www.baidu.com/'
urllib.request.urlretrieve(text_url,'./download/baidu.html')


# 视频
video_url = 'http://mvvideo11.meitudata.com/5bcc0c5280f832321.mp4?k=15493c77ef25f5e2995eb033f6addc48&t=5bd168a3'
urllib.request.urlretrieve(video_url,'./download/cole.mp4')

  • urllib.parse
import urllib.parse

# 对url 中文进行编码
code = urllib.parse.quote('狗子')
print(code)

# 对url 中文进行解码
code1 = urllib.parse.unquote('%E7%8B%97%E5%AD%90')
print(code1)


url = 'https://image.baidu.com/search/index?tn=baiduimage&'
date = {
    'id':'班助',
    'sex':'男',
    'age':'十八'
}
# urlencode传入请求的数据对象 返回url编码后的字符串
query_string = urllib.parse.urlencode(date)
# print(query_string)
print(url+query_string) 
结果:https://image.baidu.com/search/index?tn=baiduimage&id=%E7%8F%AD%E5%8A%A9&sex=%E7%94%B7&age=%E5%8D%81%E5%85%AB

# 创建请求对象
# 使用Request 传入 url(必选参数) data(请求参数,需要字节流)  headers(请求头)
request_obj = urllib.request.Request(url,headers=headers)
# urlopen的参数 可以是简单的字符串 也可以是请求对象
# 如果传入的请求对象 则可以进行更高级的设置(比如设置headers)
# 获得相应对象
response_obj = urllib.request.urlopen(request_obj)

表单数据处理
    # 处理表单数据 先变成符合url规则的字符串 然后再把字符串转换成字节码
    bytes_data = urllib.parse.urlencode(form_data).encode()
    response = urllib.request.urlopen(request, data=bytes_data)
  • urllib.error
异常处理:Exception  官方的异常基类
URLError\HTTPError是Exception的子类,在向url发送请求的时候,会出现的一些异常情况
HTTPError是URLError的子类
所以 如果两个异常都要捕获 要把http放上面 否则都会被URL捕获
import urllib.request
import urllib.error

url = 'http://www.baidu.com'
try:
    response = urllib.request.urlopen(url)
    print(response)
except urllib.error.HTTPError as e:
    print("HTTP错误")
except urllib.error.URLError as e:
    print("URL地址有误")
  • Handler处理器、自定义Opener
urllib.request.urlopen() 函数实现简单的发送请求,不能定制请求头
引入了构建请求对象
urllib.request.Request() 创建的request对象可以定制头部,但不能实现设置代理、携带cookie等更高级的功能
引入了 Handler和Opener
可以实现代理、携带cookie等高级功能
import urllib.request
import urllib.error

# 1. 创建handler对象
handler = urllib.request.HTTPHandler()  # 用于保存http的cookie
# 2. 将handler传入函数获取opener
opener = urllib.request.build_opener(handler) 
url = "http://www.baidu.com/"
# 3. 通过open()函数来发送请求
# response = opener.open(url)  # 可以传url字符串 也可以传request对象
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 " \
             "(KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
headers = {"User-Agent": user_agent}
request = urllib.request.Request(url, headers=headers)
response = opener.open(request)
print(response)
  • 设置代理
代理:作为中间人,帮助客户端(浏览器)访问其他服务器的服务器

代码请求中设置代理

import urllib.request
proxy = {"http": "114.226.65.220:6666"}  # {"协议":"地址:端口"}
# 1. 设置代理使用 ProxyHandler
handler = urllib.request.ProxyHandler(proxy)
# 2. 把创建的handler传入build函数 创建出opener
opener = urllib.request.build_opener(handler)
url = "http://www.baidu.com/s?wd=ip"  # 请求字符串
# 客户端信息
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 " \
             "(KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
headers = {"User-Agent": user_agent}
request = urllib.request.Request(url, headers=headers)
# 3. 使用opener打开
response = opener.open(request)
# 4. 写入本地文件 以便查看效果
with open("ip.html", "wb") as fp:
    fp.write(response.read())
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容