Python读取标准HTTP协议,彻底解决粘包问题

前言

最近在项目中需要接收大量带HTTP标准协议格式的数据包,在实际开发中遇到了粘包和半包问题,为了彻底的解决此问题,特此附上解决方案和可用方案代码。

一、什么是粘包

粘包问题是指当发送两条消息时,例如发送 1234 和 5678两条数据,但另一端接收到的却是 12345,像这种一次性读取了两条数据的情况就叫做粘包。正常情况下应该是读取成两条数据。产生原因如下:

  1. 发送方每次写入数据 < 套接字(Socket)缓冲区大小。
  2. 接收方读取套接字(Socket)缓冲区数据不够及时。

二、什么是半包

半包问题是指当发送的消息是 12345时,另一端却接收到的是 123 和 45 两条信息,像这种情况就叫做半包。产生原因如下:

  1. 发送方每次写入数据 > 套接字(Socket)缓冲区大小。
  2. 发送的数据大于协议的 MTU (Maximum Transmission Unit,最大传输单元),因此必须拆包。

三、什么是缓冲区

缓冲区又称为缓存,它是内存空间的一部分。也就是说,在内存空间中预留了一定的存储空间,这些存储空间用来缓冲输入或输出的数据,这部分预留的空间就叫做缓冲区。

缓冲区的优势以文件流的写入为例,如果我们不使用缓冲区,那么每次写操作 CPU 都会和低速存储设备也就是磁盘进行交互,那么整个写入文件的速度就会受制于低速的存储设备(磁盘)。但如果使用缓冲区的话,每次写操作会先将数据保存在高速缓冲区内存上,当缓冲区的数据到达某个阈值之后,再将文件一次性写入到磁盘上。因为内存的写入速度远远大于磁盘的写入速度,所以当有了缓冲区之后,文件的写入速度就被大大提升了。

四、HTTP标准格式例子

POST /API/V1/Controller/HeartInfo HTTP/1.1
Host: 192.168.0.100:8848
Content-Type: application/json
Content-Length: 180
Connection: keep-alive

{
"resId": "a75a04f5-1a52-4a9d-8c0a-b7a23140f6e2",
"time": "2021-05-26 14:21:45",
"nextTime": "2021-05-26 14:22:15",
"deviceID": "21045521532085612",
"deviceType": 1
}

五、代码分部实现和说明

1.代码分步实现

①从给定套接字读取HTTP Response。将该Response用tuple (header, body)接收两个字节的值。

@classmethod
def read_until(self, sock, condition, length_start=0, chunk_size=4096):
    '''
    从给定套接字读取,直到条件返回True。返回从套接字读取的字节数组。
    条件是有一个有两个参数的函数,condition(length, data),其中length为读取的字节总数
    data是最近读取的数据块。基于这两个值,条件必须返回True时才停止并返回到目前为止所读取的数据。
    '''
    data = bytes()
    chunk = bytes()
    length = length_start
    try:
        while not condition(length, chunk):
            chunk = sock.recv(chunk_size)
            if not chunk:
                break
            else:
                data += chunk
                length += len(chunk)
    except socket.timeout:
        pass
    return data

②将body和header分开

@classmethod
def separate_header_and_body(self, data):
    '''
    从给定的字节数组返回一个tuple (header, body)。
    如果给定的数组不包含头结束信息,那么假设它都是头文件。
    '''
    try:
        index = data.index(self.http_header_delimiter)
    except:
        return (data, bytes())
    else:
        index += len(self.http_header_delimiter)
        return (data[:index], data[index:])

③从header中获取内容长度

@classmethod
def get_content_length(self, header):
    '''
    如果在给定的字节序列中找到Content-Length,则返回由Content-Length HTTP字段给出的整数值。
    否则返回0。
    '''
    for line in header.split(b'\r\n'):
        if self.content_length_field in line:
            return int(line[len(self.content_length_field):])
    return 0

④读取body长度直到结束

self.body += self.read_until(sock, self.end_of_content, len(self.body))

2.解析处理类代码

import socket


class HTTPResourceParse:
    http_header_delimiter = b'\r\n\r\n'
    content_length_field = b'Content-Length:'

    @classmethod
    def read_until(self, sock, condition, length_start=0, chunk_size=4096):
        '''
        从给定套接字读取,直到条件返回True。返回从套接字读取的字节数组。
        条件是有一个有两个参数的函数,condition(length, data),其中length为读取的字节总数
        data是最近读取的数据块。
        基于这两个值,条件必须返回True时才停止并返回到目前为止所读取的数据。
        '''
        data = bytes()
        chunk = bytes()
        length = length_start
        try:
            while not condition(length, chunk):
                chunk = sock.recv(chunk_size)
                if not chunk:
                    break
                else:
                    data += chunk
                    length += len(chunk)
        except socket.timeout:
            pass
        return data

    @classmethod
    def separate_header_and_body(self, data):
        '''
        从给定的字节数组返回一个tuple (header, body)。
        如果给定的数组不包含头结束信息,那么假设它都是头文件。
        '''
        try:
            index = data.index(self.http_header_delimiter)
        except:
            return (data, bytes())
        else:
            index += len(self.http_header_delimiter)
            return (data[:index], data[index:])

    @classmethod
    def get_content_length(self, header):
        '''
        如果在给定的字节序列中找到Content-Length,则返回由Content-Length 
        HTTP字段给出的整数值。否则返回0。
        '''
        for line in header.split(b'\r\n'):
            if self.content_length_field in line:
                return int(line[len(self.content_length_field):])
        return 0

    def __init__(self):
        self.header = bytes()
        self.content_length = 0
        self.body = bytes()

    def end_of_header(self, length, data):
        '''
        如果data包含报头结束标记,则返回true。
        '''
        return b'\r\n\r\n' in data

    def end_of_content(self, length, data):
        '''
        如果length不满足content_length则返回true。
        '''
        return self.content_length <= length

    def recv(self, sock):
        '''
        从给定套接字读取HTTP Response。将该Response用tuple (header, body)接收两个字节的值。
        '''
        # 读取到header的末尾
        self.data = self.read_until(sock, self.end_of_header)

        # 将body和header分开
        self.header, self.body = self.separate_header_and_body(self.data)

        # 从header中获取内容长度
        self.content_length = self.get_content_length(self.header)

        # 读取body长度直到结束
        self.body += self.read_until(sock, self.end_of_content, len(self.body))

        return (self.header, self.body)

3.Socket服务类代码

import socket
import threading
from HTTPResourceParse import HTTPResourceParse

connections = []
sock = None


def accept_client():
    """
    receive connection
    """
    while True:
        client, address = sock.accept()
        connections.append(client)
        thread = threading.Thread(target=message_handle, args=(client, address))
        thread.setDaemon(True)
        thread.start()


def message_handle(client, address):
    """
    handle message
    """
    try:
        while 1:
            try:
                header, body = HTTPResourceParse().recv(client)
                if len(header) > 0 and len(body) > 0:
                    data_header = header.decode('utf-8')
                    data_body = body.decode('utf-8')
                    print(data_header, data_body)
                    full_data = header.decode('utf-8') + body.decode('utf-8')
                    print(full_data)
            except Exception as e:
                print(e)
    except Exception as e:
        print(e)


def start_connect():
    global sock
    # 将此主机地址更改为你的自定义IP
    host = "192.168.0.100"  
    # 将此端口更改为你的自定义端口
    port = 8848  
    print("server host: " + host)
    # create a socket service
    sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    sock.bind((host, port))
    sock.listen(32)
    thread = threading.Thread(target=accept_client)
    thread.start()

总结

本文介绍了TCP 粘包和半包问题,粘包是指读取到了两条信息,正常情况下消息应该是一条一条读取的,而半包问题是指读取了一半信息。导致粘包和半包的原因是 TCP 的传输是以流的形式进行的,而流数据是没有明确的开始和结尾标识的,因此就导致了此问题。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容