Python3爬虫教程基础篇之二:网络库Reqeusts详解(上)

Requests 是什么

Requests 是 Kenneth Reitz 编写的一个优雅、易用的 HTTP 库。Requests 的底层基于 Python 官方库 urllib,但 Requets 良好的 API 设计更适合人类使用。

Requests 的核心类

Requests 最核心的两个类,一个是 request(对 HTTP 请求的分装),另一个是 response(对 HTTP 返回结果的封装)。

简单来说,一次 HTTP 请求,其实就是:

构造 request 类;

通过 urllib 发送 HTTP 请求;

等待服务器并获取服务器响应结果;

解析响应结果,并构造 response 类;

从上面可以看出,理解了 request 和 response 类,对掌握 Requests 库和学习 HTTP 协议有很大的帮助。

request 类

请求方法

用法:请求方法 资源名。比如:GET /help.html、POST /users

常用的请求方法如下:

GET:常用的请求方法,表示获取资源的意思。比如:GET /index.html 的意思就是,获取 index.html 这个文件资源。

HEAD:与 GET 方法类似,但是只返回 headers。HEAD 方法通常用于判断一个较大的文件资源是否存在。比如,有一个100M的视频文件,如果用 GET 方法,则这个请求耗时太长。而如果用 HEAD 方法,只获取这个资源的 header 信息,则速度会快许多。

POST:创建资源

PUT:更新资源

DELETE:删除指定资源

PATCH:更新指定资源的部分信息

示例:

GET /users/joker:获取 /users/joker 这个资源。从人类的角度看,这里的意思是,获取 joker 这个用户的信息。

POST /users:创建一个用户,用户的信息存储在 body 中,这里没展示出来

DELETE /users/joker:删除 joker 这个用户

请求头

请求头是 request 和 response 的描述信息。这里列举几个在爬取数据过程中,比较重要的几个 header。如下:

User-Agent:简称 UA,存储客户端的一些信息。如果是浏览器的 UA,一般会记录浏览器的名称(Chrome/Firefox/IE 等),操作系统(Windows/Linux/macOS 等)。如果是自定义程序,一般规则是:程序名/版本号。比如:python-requests/2.18.3。在爬取数据的过程中,一般都是将 UA 模拟成常用浏览器的 UA,避免被封。      小编推荐一个学Python的学习裙【 二二七,四三五,四五零 】,无论你是大牛还是小白,是想转行还是想入行都可以来了解一起进步一起学习!裙内有开发工具,很多干货和技术资料分享!希望新手少走弯路

Referer:记录请求的来源。一般用于防盗链。比如:example.com 的图片,只允许自己网站使用。如果 a.com 使用了 example.com 的图片,则 Referer 默认为:a.com。example.com 看到了 Referer 来源不是自家的,一般就会提示:此图为盗链,请直接访问:example.com。这里建议在爬取数据的过程中,将 Referer 设置为目标站点。

Cookie:一般用于识别用户身份。在爬取过程中,如果目标网站模拟登陆较难,则可以手动登录后,获取 cookie,然后在程序中使用。

Content-Type:说明 body 的类型。需要保证该值正确,否则服务器可能无法正常解析请求数据。

请求体

不同的 Content-Type 头部,请求体的格式是不同的,这里不多做说明。

response 类

状态码

状态码一共有5大分类,如下:

1xx:信息相关,较少使用到。

2xx:请求被服务端正确处理,最常见的就是:200 OK

3xx:表示重定向,需要客户端从 Location header 中获取新的资源地址

4xx:表示客户端发生错误

5xx:表示服务端发生错误

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,644评论 18 139
  • 组织:中国互动出版网(http://www.china-pub.com/) RFC文档中文翻译计划(http://...
    Palomar阅读 1,572评论 0 6
  • 一、概念(载录于:http://www.cnblogs.com/EricaMIN1987_IT/p/3837436...
    yuantao123434阅读 8,339评论 6 152
  • 前言:最近发现自己在网络相关这一块基础很是欠缺,所以准备花时间了解一下,本文主要是讲http协议的一些基础,和一些...
    justCode_阅读 2,094评论 0 23
  • 做了一个梦:产假结束,发现自己被调到一所离家很远的学校,不能天天回家。家中两个孩子怎么办哪?还有一个在哺乳期呢?正...
    琴韵无声阅读 239评论 0 1