聚沙成塔--爬虫系列(十八)(原生socket(套接字)实现HTTP请求)

版权声明:本文为作者原创文章,可以随意转载,但必须在明确位置标明出处!!!

tips:本基础系列旨在以爬虫带大家入门Python语言

上一篇文章介绍了HTTP协议,相信读者对HTTP协议也有了一个基本的了解,但这还不够,光了解它并不代表你能够使用它,就像练习武林秘诀一样,光知道口诀是不行的,还要反复的去联系,去体会才能融会贯通,所以我们拥有了HTTP协议口诀后,要做的就是去练习它了,本章将会通过原生的socket套接字去实现HTTP请求以加深如协议的理解。

socket套接字

套接字是计算机网络数据结构,它体现了“通信端点”的概念,在任何类型的通信开始之前,网络应用程序都必须创建套接字,你可以把她当作老式的电话线,要让电话可用那必须先得插上和外界通信的电话线。套接字的起源可以追溯到20 世纪70 年代,它是加利福尼亚大学的伯克利版本UNIX(称为BSD UNIX)的一部分。因此,有时你可能会听过将套接字称为伯克利套接字或BSD 套接字。套接字最初是为同一主机上的应用程序所创建,使得主机上运行的一个程序(又名一个进程)与另一个运行的程序进行通信。这就是所谓的进程间通信(Inter Process Communication,IPC)。有两种类型的套接字:基于文件的和面向网络的。基于文件的家族是AF_UNIX;AF_NETLINK、AF_TIPC、AF_INET家族都是基于网络的。

socket模块

要使用网络编程就必须的用到socket模块了,这个模块是 Python 的标准库模块,可以直接导入使用,网络传输有两种模式,一种是可靠传输,也就是使用TCP协议,一种是不可靠传输,使用UDP协议;什么是可靠传输呢,可靠传输是指要确保我发给对方的数据,对方一定能收到, 它常用在文件传输。UDP为不可以传输,是指我只管把数据发给你,至于你有没有收到我并不关心,所以UDP协议常用在视频传输,实时通信等方面,对于视频传输就算少个3,4帧数据我们人眼是看不出来的,TCP、UDP都是传输层协议,它们都需要通过IP(网络层)封装后才能在网络中传输,TCP比UPD传输速率慢,因为TCP有「三次握手」,「四次挥手」。

属性 TCP UDP
连接性 面向连接 面向无连接
可靠性 可靠 不可靠
传输效率

套接字对象的内置方法

网络编程的第一步就是创建一个socket套接字,它返回一个套接字对象,该对象有如下方法


网络编程流程

在编写代码之前首先要了解客户端和服务端的交互流程,这个流程一定要记得滚瓜烂熟,最好的办法就是多写几遍,我刚开始学网络编程就是用的这种办法。TCP和UDP的交互流程如下

  • TCP协议模型
    • 服务端:
      1. 创建套接字(socket)
      2. 绑定端口(bind)
      3. 监听端口(listen)
      4. 接受连接(accept)无限循环等待客户端的连接请求
      5. 接收/发送消息(recv/send)
      6. 关闭套接字
    • 客户端:
      1. 创建套接字(socket)
      2. 连接服务端(connect)
      3. 发送/接收消息(send/recv)
      4. 关闭套接字
  • UDP的交互流程如下
    • 服务端:
    1. 创建套接字(socket)
    2. 绑定端口(bind)
    3. 接收/发送消息(recvfrom/sendto)
    4. 关闭套接字
    • 客户端:
      1. 创建套接字(socket)
      2. 连接服务端(connect)
      3. 发送/接收消息(send/recv)
      4. 关闭套接字

socketserver模块

该模块是一个高级的抽象模块,它的目标是简化很多样板代码,就是创建网络客户端和服务器所必需的代码,所以该模块只是封装了一些原生套接字的的功能,你查看该模块的源码肯定会发现其实它还是用的socket,所以在你刚接触网络编程的时候一定要使用原生的套接字,让自己掌握客户端和服务端的交互流程,当你觉得你已经用的很熟了的时候你可以考虑使用更高级的模块,初学的时候建议使用原生的套接字,accept默认是阻塞的,只有等待客户端的连接请求了才会返回。有阻塞肯定就有异步,所以读者可以去了解了解异步套接字怎么实现,异步套接字的实现可以去了解select模块, 再深入一点就是去读TCP/IP协议详解。

Request请求格式

Request请求格式

Response应答格式

Response应答格式

实战

光说不练都是假把式,下面将会使用原生的套接字实现http协议的几个方法

  • GET方法
from socket import *

# 创建套接字
tcp_socket = socket(AF_INET, SOCK_STREAM)
# 连接服务器
tcp_socket.connect(('www.baidu.com', 80))

request_str = '''GET /home/news/data/newspage HTTP/1.1\r\n\
Host:www.baidu.com\r\n\
Connection:keep-alive\r\n\
Accept-Encoding:gzip, deflate, br\r\n
Accept-Language:en,zh-CN;q=0.8,zh;q=0.6\r\n
User_Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36\r\n\r\n'''

tcp_socket.send(bytes(request_str.encode('utf-8')))

response_str = tcp_socket.recv(4096)

print(response_str)
  • 返回结果
HTTP/1.1 200 OK
Date: Wed, 15 Nov 2017 06:59:19 GMT
Content-Type: text/html;charset=utf-8
Transfer-Encoding: chunked
Connection: Keep-Alive
Vary: Accept-Encoding
Cache-Control: private
Expires: Wed, 15 Nov 2017 06:59:19 GMT
tracecode: 35597275360655541002111514
Set-Cookie: BAIDUID=800F3E63D821D767A0F99B52BF9C82A4:FG=1; expires=Thu, 15-Nov-18 06:59:19 GMT; max-age=31536000; path=/; domain=.baidu.com; version=1
P3P: CP=" OTI DSP COR IVA OUR IND COM "
Content-Encoding: gzip
Server: BWS/1.0
  • POST方法
from socket import *

# 创建套接字
tcp_socket = socket(AF_INET, SOCK_STREAM)
# 连接服务器
tcp_socket.connect(('www.baidu.com', 80))

request_str = '''POST /home/news/data/newspage HTTP/1.1\r\n\
Host:www.baidu.com\r\n\
Connection:keep-alive\r\n\
Accept-Encoding:gzip, deflate, br\r\n
Accept-Language:en,zh-CN;q=0.8,zh;q=0.6\r\n
User_Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36\r\n\r\n'''

tcp_socket.send(bytes(request_str.encode('utf-8')))

response_str = tcp_socket.recv(4096)

print(response_str)
  • 返回结果
HTTP/1.1 200 OK
Date: Wed, 15 Nov 2017 07:27:41 GMT
Content-Type: text/html;charset=utf-8
Transfer-Encoding: chunked
Connection: Keep-Alive
Vary: Accept-Encoding
Cache-Control: private
Expires: Wed, 15 Nov 2017 07:27:41 GMT
tracecode: 16618310650351194890111515
Set-Cookie: BAIDUID=12E8E5D7F713B721254540A39F83EF37:FG=1; expires=Thu, 15-Nov-18 07:27:41 GMT; max-age=31536000; path=/; domain=.baidu.com; version=1
P3P: CP=" OTI DSP COR IVA OUR IND COM "
Content-Encoding: gzip
Server: BWS/1.0
  • OPTIONS方法
from socket import *

# 创建套接字
tcp_socket = socket(AF_INET, SOCK_STREAM)
# 连接服务器
tcp_socket.connect(('www.baidu.com', 80))

request_str = '''OPTIONS http://www.baidu.com HTTP/1.1\r\n\
Host:www.baidu.com\r\n\
Connection:keep-alive\r\n\
Accept-Encoding:gzip, deflate, br\r\n
Accept-Language:en,zh-CN;q=0.8,zh;q=0.6\r\n
User_Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36\r\n\r\n'''

tcp_socket.send(bytes(request_str.encode('utf-8')))

response_str = tcp_socket.recv(4096)

print(response_str)
  • 返回结果
HTTP/1.1 200 OK
Date: Wed, 15 Nov 2017 07:34:23 GMT
Server: Apache
P3P: CP=" OTI DSP COR IVA OUR IND COM "
P3P: CP=" OTI DSP COR IVA OUR IND COM "
Set-Cookie: BAIDUID=B709AAC9A337A10E7C13EB1C84696D10:FG=1; expires=Thu, 15-Nov-18 07:34:23 GMT; max-age=31536000; path=/; domain=.baidu.com; version=1
Set-Cookie: BAIDUID=B709AAC9A337A10EF3C3565FCF06D220:FG=1; expires=Thu, 15-Nov-18 07:34:23 GMT; max-age=31536000; path=/; domain=.baidu.com; version=1
Allow: GET,HEAD,POST,OPTIONS,TRACE
Cache-Control: max-age=1
Expires: Wed, 15 Nov 2017 07:34:24 GMT
Vary: Accept-Encoding,User-Agent
Content-Encoding: gzip
Content-Length: 20
Connection: Keep-Alive
Content-Type: text/html

从返回结果中我看可以看到百度服务器不支持PUT,DELETE方法,想想也知道为撒啊,要是支持了这两个方法那还不得乱套了,你可以随便想他的服务器上传文件,也可以删除服务器上的文件,这得有多恐怖是吧。TRACE方法也可以自己去试试,不过我测试过这个方法,服务器并没有返回任何应答给我。

okay,本章就到这里结束了,学习一个协议的时候最好的理解办法就是亲自动手去实践一下。一定要养成这样的习惯,对于肯定大有裨益。


欢迎关注我:「爱做饭的老谢」,老谢一直在努力...

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容