01网络请求-urllib库

urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据

urlopen函数

在Python3的urllib库中,所有和网络请求相关的方法,都被集到urllib.request模块下面了
urlopen函数基本的使用

  1. url:请求的url
  2. data:请求的data,如果设置了这个值,那么将变成post请求
  3. 返回值:返回值是一个http.client.HTTPResponse对象,这个对象是一个类文件句柄对象,有read(size)、readline、readlines以及getcode等方法
from urllib import request
resp = request.urlopen('http://www.baidu.com')
print(resp.read())
  • 这个时候,通过浏览器访问百度,右击检查源代码,会发现和打印的数据是一样的

urlretrieve函数

这个函数可以方便的将网页上的一个文件保存到本地,把百度首页保存在本地

from urllib import request
request.urlretrieve('http://www.baidu.com/','baidu.html')

或者想下载百度上的图片,直接复制图片地址,第二个参数是在本地的名字

urlencode函数和parse_qs函数

  1. 用浏览器发送请求的时候,如果url中包含了中文或者其他特殊字符,那么浏览器会自动的给我们进行编码。而如果使用代码发送请求,那么就必须手动的进行编码,这时候就应该使用urlencode函数来实现。urlencode可以把字典数据转换为URL编码的数据
  2. 可以将经过编码后的url参数进行解码
from urllib import request,parse
data = {'name':'爬虫','age':18,'text':'hello world'}
qs = parse.urlencode(data)  # 编码
print(qs)
print(parse.parse_qs(qs)) # 解码
# name=%E7%88%AC%E8%99%AB&age=18&text=hello+world
# {'name': ['爬虫'], 'age': ['18'], 'text': ['hello world']}

  • 比如在百度上搜索https://www.baidu.com/s?wd=李宗盛,这直接复制到地址栏就可以了,但是使用python请求的话,中文就得手动编码
# https://www.baidu.com/s?wd=李宗盛
url = 'https://www.baidu.com/s'
params = {'wd':'李宗盛'}
qs = parse.urlencode(params)
url = url + '?' + qs
print(url)
# https://www.baidu.com/s?wd=%E6%9D%8E%E5%AE%97%E7%9B%9B
resp = request.urlopen(url)
print(resp.read()) # 这样就获取到了源代码
# 把这个复制到地址栏也可以进行搜索,因为浏览器自动编码解码,
# 若想到这是什么意思,我们可以手动的解码
print(parse.parse_qs(url))
# {'https://www.baidu.com/s?wd': ['李宗盛']}

urlparse和urlsplit

有时候拿到一个url,想要对这个url中的各个组成部分进行分割,那么这时候就可以使用urlparse或者是urlsplit来进行分割

from urllib import request,parse
url = 'https://study.163.com/course/courseLearn.htm?courseId=378003#/learn/video?lessonId=495018&courseId=378003'

result1 = parse.urlsplit(url)
result2 = parse.urlparse(url)
print(result1)
# SplitResult(scheme='https', netloc='study.163.com', path='/course/courseLearn.htm', query='courseId=378003', fragment='/learn/video?lessonId=495018&courseId=378003')
print(result2)
# ParseResult(scheme='https', netloc='study.163.com', path='/course/courseLearn.htm', params='', query='courseId=378003', fragment='/learn/video?lessonId=495018&courseId=378003')

# 想获取某一个属性
print('协议:'+result1.scheme)
print('网址:'+result1.netloc)
print('路径:'+result1.path)
print('参数:'+result1.query)
  • urlparseurlsplit基本上是一模一样的。唯一不一样的地方是,urlparse里面多了一个params属性,而urlsplit没有这个params属性
  • 比如有一个url为:url = 'http://www.baidu.com/s;hello?wd=python&username=abc#1'
    那么urlparse可以获取到hello,而urlsplit不可以获取到。url中的params也用得比较少

request.Request类

如果想要在请求的时候增加一些请求头,那么就必须使用request.Request类来实现。比如要增加一个User-Agent

from urllib import request,parse

url = 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput='
# lagou用普通的方法获取不到数据
resp = request.urlopen(url)
print(resp.read())
  • 在这里加入浏览器标识
#encoding: utf-8
from urllib import request,parse

url = 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput='

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'
}

req = request.Request(url,headers=headers)
# 这里传入的是加入标识的
resp = request.urlopen(req)
print(resp.read())
  • 此时就可以获取到这一页的数据了

模拟拉钩,查询一页信息

因为拉钩网用的是Ajax,所以还要进行分析,例如搜索python,首先找到后台请求Ajax的,然后分析它的网址,请求方式,以及Form Data


拉钩一页.gif
#encoding: utf-8
from urllib import request,parse
# 对应的Ajax请求的地址
url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'
# 添加一些信息头
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36',
    'Referer':'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput='
}
# 要传递的数据,看着上面的写
data = {
    'first':'true',
    'pn':1,
    'kd':'python'
}
# 注意,此时的data数据要进行编码,然后转化为utf-8
req = request.Request(url,headers=headers,data=parse.urlencode(data).encode('utf-8'),method='POST')
resp = request.urlopen(req)
# 对得到的数据进行解码
print(resp.read().decode('utf-8'))
  • 此时的Request()方法中传入的参数分别是,url,信息头,经过编码的数据,以及请求方式


    拉钩一页的数据.gif

ProxyHandler处理器(代理设置)

我们可以设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬取,urllib中通过ProxyHandler来设置使用代理服务器

  1. https://httpbin.org/get 查看自己请求的参数
  2. 在代码中使用代理
    • 使用ProxyHandler,传入一个代理的ip,建立handler,这个代理是一个字典
    • 使用上面的handler,以及request.build_opener构建一个opener
    • 使用opener去发送一个请求,调用open函数
  3. 代理IP:https://www.kuaidaili.com
#encoding: utf-8
from urllib import request
# 没有使用代理
# resp = request.urlopen('http://httpbin.org/get')
# print(resp.read().decode('utf-8'))

# 使用代理
# 1.使用ProxyHandler,传入一个代理的ip,建立handler
handler = request.ProxyHandler({'http':'117.90.5.152:9000'})
# 2.使用上面的handler构建一个opener
opener = request.build_opener(handler)
req = request.Request('http://httpbin.org/ip')
# 3.使用opener去发送一个请求
resp = opener.open(req)
print(resp.read())

cookie实现模拟登陆

  1. 什么是cokie
    • 在网站中,http请求是无状态的。也就是说即使第一次和服务器连接后并且登录成功后,第二次请求服务器依然不能知道当前请求是哪个用户
    • cookie的出现就是为了解决这个问题,第一次登录后服务器返回一些数据(cookie)给浏览器,然后浏览器保存在本地,当该用户发送第二次请求的时候,就会自动的把上次请求存储的cookie数据自动的携带给服务器,服务器通过浏览器携带的数据就能判断当前用户是哪个了
    • cookie存储的数据量有限,不同的浏览器有不同的存储大小,但一般不超过4KB。因此使用cookie只能存储一些小量的数据
  2. cookie的格式
    Set-Cookie: NAME=VALUE;Expires/Max-age=DATE;Path=PATH;Domain=DOMAIN_NAME;SECURE
    • NAME:cookie的名字
    • VALUE:cookie的值
    • Expires:cookie的过期时间
    • Path:cookie作用的路径
    • Domain:cookie作用的域名
    • SECURE:是否只在https协议下起作用

第一种方案 简单粗暴

  1. 这里以人人网为例。人人网中,要访问某个人的主页,必须先登录才能访问,就是要有cookie信息,那么如果我们想要用代码的方式访问,就必须要有正确的cookie信息才能访问
  2. 如何获取cookie信息呢,这个时候我们时候浏览器登陆,然后找到cookie信息,复制下
#encoding: utf-8

from urllib import request,parse

# 写入我们复制的cookie信息
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36',
    'Cookie': 'anonymid=jfs1i5li-ie82t9; depovince=ZGQT; _r01_=1; ick_login=b6e8ac34-2089-49fe-9340-3fe1e935b755; t=44d166666e938d4fe0a618f857412aaa3; societyguester=44d166666e938d4fe0a618f857412aaa3; id=963676363; xnsid=56399218; jebecookies=df0c1ec4-5568-4b34-bd2d-d2f069f2e109|||||; JSESSIONID=abcm3bFI8F05W6t2MXPkw; ch_id=10016; wp_fold=0'
}
# 打开想要进入的主页
url = 'http://www.renren.com/880151247/profile'

req = request.Request(url,headers=headers)
resp = request.urlopen(req)
# 把获取到的主页写入到html中
# 这里指定的utf-8是文件打开的格式
with open('renren.html','w',encoding='utf-8') as fp:
    fp.write(resp.read().decode('utf-8'))
  • 注意:
    • 此时文件是指定的utf-8打开
    • 由于此时write必须写入一个String类型的数据,resp.read()返回的是一个bytes类型的,所以到使用decode('utf-8')
  • 字符的转换
    • bytes -- > decode -- > str
    • str -- > encode -- > bytes
  • 但是每次在访问需要cookie的页面都要从浏览器中复制cookie比较麻烦

第二种方案 使用http.cookiejar和request.HTTPCookieProcessor模块

Cookie 是指网站服务器为了辨别用户身份和进行Session跟踪,而储存在用户浏览器上的文本文件,Cookie可以保持登录信息到用户下次与服务器的会话

  1. http.cookiejar模块主要作用是提供用于存储cookie的对象,该模块主要的类有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar
    • CookieJar:管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中,对CookieJar实例进行垃圾回收后cookie也将丢失
    • FileCookieJar (filename,delayload=None,policy=None):从CookieJar派生而来,用来创建FileCookieJar实例,检索cookie信息并将cookie存储到文件中。filename是存储cookie的文件名。delayload为True时支持延迟访问访问文件,即只有在需要时才读取文件或在文件中存储数据
    • MozillaCookieJar (filename,delayload=None,policy=None):从FileCookieJar派生而来,创建与Mozilla浏览器 cookies.txt兼容的FileCookieJar实例
    • LWPCookieJar (filename,delayload=None,policy=None):从FileCookieJar派生而来,创建与libwww-perl标准的 Set-Cookie3 文件格式兼容的FileCookieJar实例
  2. request.HTTPCookieProcessor处理器主要作用是处理这些cookie对象,并构建handler对象
  3. 使用这种方式登陆人人网
    • 首先分析网页,得到登陆时数据传递的网址


      登陆时的网址.png
    • 分析要传递的数据


      查看登陆时候的参数.png
#encoding: utf-8

from urllib import request,parse
from http.cookiejar import CookieJar

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'
}

url = 'http://www.renren.com/880151247/profile'

def get_opener():
    cookiejar = CookieJar()
    handler = request.HTTPCookieProcessor(cookiejar)
    opener = request.build_opener(handler)
    return opener

def login_renren(opener):
    data = {'email':'15837503603','password':'2110198860'}
    data = parse.urlencode(data).encode('utf-8')
    login_url = 'http://www.renren.com/PLogin.do'
    req = request.Request(login_url,headers=headers,data=data)
    opener.open(req)

def visit_profile(opener):
    url = 'http://www.renren.com/880151247/profile'
    req = request.Request(url,headers=headers)
    resp = opener.open(req)
    with open('renren.html','w',encoding='utf-8') as fp:
        fp.write(resp.read().decode('utf-8'))

if __name__ == '__main__':
    opener = get_opener()
    login_renren(opener)
    visit_profile(opener)

  • 这样就可以获取到源码了
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,616评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,020评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,078评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,040评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,154评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,265评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,298评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,072评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,491评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,795评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,970评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,654评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,272评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,985评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,815评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,852评论 2 351

推荐阅读更多精彩内容