学会Requests,轻松获取响应数据!

大家好,我是小瑜!

今天我来给介绍一个常用的库—requests来获取数据。文末给大家准备了cURL转换器领取。

在开始使用requests之前,需要使用下面的命令安装requests。

pip install requests  # Mac电脑

pip3 install requests # Windows电脑

requests库可以帮我们下载网页源代码、文本、图片,甚至是音频。其实,“下载”本质上是向服务器发送请求并得到响应。

1. GET请求

向服务器端发送HTTP GET请求是最常见的操作之一,如果只是简单地发送GET请求,只需将URL传入get方法即可。要想为GET请求指定参数,可以使用get方法的params参数,该参数需要是一个字典类型的值。如果同时在URL中和params参数指定GET请求的参数,那么get方法会将参数合并。实例如下:

import requests

params = (

  ('cl', '3'),

  ('tn', 'baidutop10'),

  ('fr', 'top1000'),

  ('wd', '\u59D4\u5458\u5EFA\u8BAE\u7537\u5973\u5171\u62C5\u793E\u4F1A\u5316\u5206\u62C5\u5BB6\u52A1'),

  ('rsv_idx', '2'),

  ('rsv_dl', 'fyb_n_homepage'),

  ('hisfilter', '1'),

)

response = requests.get('https://www.baidu.com/s',params=params)

print(response.text)

运行结果如下:

在这里并没有我们想要的内容,这是因为我们还没有加请求头,下面我们来加上请求头看看。

2. 添加HTTP请求头

有很多网站,在访问其Web资源时,必须设置一些HTTP请求头,如User-Agent、Host、Cookie等,否则网站服务端会限制访问这些Web资源。使用get方法为HTTP添加请求头相当容易,只需要设置get方法的headers参数即可。实例如下:

import requests

cookies = {

'BIDUPSID': 'C18361A64764F59D646052EE4AD79175',

'PSTM': '1615270228',

'BDRCVFR[RLNFFabN1tf]': 'mk3SLVN4HKm',

'BAIDUID': 'C18361A64764F59DA5EF8CC25D35CD7C:FG=1',

'BD_HOME': '1',

'BD_UPN': '12314753',

'BDRCVFR[S4-dAuiWMmn]': 'gPGGOZY-30sfj63njb1nWRkg1RLgv99',

'delPer': '0',

'BD_CK_SAM': '1',

'PSINO': '2',

'H_PS_PSSID': '33256_33344_31253_33594_33570_33392_33600_33604_33459_26350_22157',

'H_PS_645EC': '8ffbimOuh1Rt%2FHBU7k%2FLARKLTxIx9QZBQ8MC5l5R83NAhtJrZ8wxGdpolO57H5he%2BA',

'BA_HECTOR': '0g2l84002404818ltc1g4e4ao0q',

'BDORZ': 'B490B5EBF6F3CD402E515D22BCDA1598',

}

headers = {

'Connection': 'keep-alive',

'Cache-Control': 'max-age=0',

'Upgrade-Insecure-Requests': '1',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36',

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',

'Sec-Fetch-Site': 'same-origin',

'Sec-Fetch-Mode': 'navigate',

'Sec-Fetch-User': '?1',

'Sec-Fetch-Dest': 'document',

'Referer': 'https://www.baidu.com/?tn=88093251_57_hao_pg',

'Accept-Language': 'zh-CN,zh;q=0.9',

}

params = (

  ('cl', '3'),

  ('tn', 'baidutop10'),

  ('fr', 'top1000'),

  ('wd', '\u59D4\u5458\u5EFA\u8BAE\u7537\u5973\u5171\u62C5\u793E\u4F1A\u5316\u5206\u62C5\u5BB6\u52A1'),

  ('rsv_idx', '2'),

  ('rsv_dl', 'fyb_n_homepage'),

  ('hisfilter', '1'),

)

response = requests.get('https://www.baidu.com/s', headers=headers, params=params, cookies=cookies)

print(response.text)

程序运行结果部分图:

加上请求头后,我们请求的数据就多了!

3. 抓取二进制数据

get方法指定的URL不仅可以是网页,还可以是任何二进制文件,如png图像、pdf文档等。一般获取二进制数据,需要将数据保存到本地文件中。所以需要调用content属性获得bytes形式数据,然后在保存到文件中即可。4. 响应数据

发送HTTP请求后,get方法会返回响应,Response对象还有很多属性和方法可以用来获取更多的响应信息。如状态码、响应头、Cookie等等。在获得响应结果后,通常需要判断状态码,如果状态码是200,说明服务端成功响应了客户端,如果不是200,那就是有错误,需要进行检查处理。

查询状态码方式:

response = requests.get('https://www.baidu.com/s', headers=headers, params=params, cookies=cookies)

print(response.status_code)

5. 使用代理现在爬取很多网站可能会导致封掉自己的ip,所以我们需要使用代理ip,保护好自己的ip,requests使用代理发送请求非常容易,只需指定proxies参数即可。

import requests

proxies = {

"http": "http://10.10.1.10:3128",

"https": "https://10.10.1.10:1080",

}

requests.get("http://example.org", proxies=proxies)

6.身份验证

使用requests进行身份验证十分简单,只需设置auth参数即可。auth参数的值是一个HTTPBasicAuth对象,封装了用户名和密码。

import requests

from requests.auth import HTTPBasicAuth

url = "http://httpbin.org"

#身份验证-BasicAuth

r = requests.get(url+"/basic-auth/51zxw/8888",auth=HTTPBasicAuth('51zxw','8888'))

print(r.text)

程序运行结果如下:

总结

1. requests库的用法十分简单,大家只需多加练习即可。其中前两个最常用,大家仔细阅读。

2. 如果大家觉得请求头或者其他参数不太好找,建议大家使用cURL,可以一键构造出来,以后爬虫只需要提取和存储数据即可,不用在操构建请求的心思了!

3. 点击领取URL转换器!提取码:qwer

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,496评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,407评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,632评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,180评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,198评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,165评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,052评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,910评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,324评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,542评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,711评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,424评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,017评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,668评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,823评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,722评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,611评论 2 353

推荐阅读更多精彩内容