websocket 协议是在tcp协议只上建立的数据传输协议。它也跟tcp协议一样有个握手的过程, 但是它的握手过程是在http协议下进行的。握手成功之后和服务器建立连接, 之后通过websocket的数据包协议进行通信。如下图:
其中1和2是握手,使用http协议进行。3和4是数据交互,基于websocket数据包协议进行。
握手
- 客户端发送
首先客户端通过tcp连接到服务器,然后发送http请求,请求只有请求头,没有正文。请求头如下:
GET ws://{host}:{post}/ HTTP/1.1
Host: {host}:{port}
Connection: Upgrade
Upgrade: websocket
Sec-WebSocket-Version: 13
Sec-WebSocket-Key: xxxxxxxx
其中{host}是主机地址或者域名, {post}是端口, 如果是80端口, 默认可以省略。
Connection
的值必须是Upgrade, Upgrade
的值必须是websocket, 表示将当前连接升级到websocket连接。
Sec-WebSocket-Version
是websocket的版本号
Sec-WebSocket-Key
是客户端生成的一个key,这个key服务器响应的时候必须通过它和固定的算法生成一个新的key返回给客户端。客户端校验通过后才能建立连接。
- 服务端回复
服务端收到客户端的连接升级请求之后,响应如下http协议表示同意此次升级:
HTTP/1.1 101 Switching Protocols
Upgrade: websocket
Connection: Upgrade
Sec-WebSocket-Accept: aaaaaaa
HTTP/1.1 101 Switching Protocols
是固定的, 表示切换协议, 接下来得到交互将用websocket数据包的协议进行。
Connection
的值必须是Upgrade, Upgrade
的值必须是websocket。跟客户端发送的一样。
Sec-WebSocket-Accept
这个就是用客户端发送的 Sec-WebSocket-Key
和固定算法生成的一个key。生成方式如下:
- 将字符串
258EAFA5-E914-47DA-95CA-C5AB0DC85B11
拼接到客户端发来的Sec-WebSocket-Key
的值的后面. - 对拼接结果进行sha1计算, 得到一个20个字符(原始格式)的sha1值。
- 将sha1的结果进行base64编码得到对于的key
用php代码实现如下:
base64_encode(sha1($key . '258EAFA5-E914-47DA-95CA-C5AB0DC85B11', true))
至此,握手阶段结束,接下来的数据交互将通过websocket的数据包协议进行。
websocket 数据包协议
官方给出的协议格式如下(RFC6455):
它是由 数据包头部
+ 数据内容
组成
为了更好理解,我把它的数据包头部单独画成了这样:
头部解析
从上图可以看出,websocket数据包的头部是变长的, 由2-12个字节组成。
数据包的第一个字节,包含了5个值, 分别是FIN
、RSV1
、RSV2
、RSV3
、opcode
,其代表的含义如下:
FIN
: 占用1位(bit), 取值0或1, 它是用来标记是否为最终包, 也就是说如果FIN为0, 则表示这个是分包, FIN为1, 表示最终包。例如,收到4个包,其FIN分别为 0,0,0,1则实际收到的内容必须用这四个包的内容合并。
RSV1
、RSV2
、RSV3
:这三个值各占1位(bit),是保留字段,不使用都填充为0
opcode
:操作码,占4位,取值范围是 0-15,十六进制为0x0-0xF。其取值如下(十进制):
-
0
:标识一个中间数据包 -
1
:标识一个text类型数据包 -
2
:标识一个binary类型数据包 -
3
-7
:保留 -
8
:标识一个断开连接类型数据包 -
9
:标识一个ping类型数据包 -
10
:表示一个pong类型数据包 -
11
-15
:保留
数据包的第二个字节包含了2个值, 分别是MASK
、payload length
。
MASK
占1位,取值为0或1,这个值如果是1表示对payload数据(也就是数据包的数据内容
部分)进行mask计算(用mask key对数据进行异或运算)。
payload length
就是数据内容
的长度,或者长度标记, 这里的payload length
占7位,取值范围为0-127。 这其中如果是小于126, 表示是数据内容
的长度。如果是126,表示第3、4字节(双字节,最大值65535)用来存储数据内容
的长度。如果是127,表示第3、4、5、6、7、8、9、10(八字节)用来存储数据内容
的长度。
payload length
之后会有0或4个字节来表示mask key
的值,该值取决于MASK
标记是否为1。只有MASK
为1才会用4个字节来存储mask key
mask计算用php代码表示如下:
//mask转换
if($mask) {
$maskKeyAry = array_map(function ($r) {return ord($r);}, str_split($maskKey, 1));
for($i=0; $i<$payloadLength; $i++) {
$payload[$i] = chr(ord($payload[$i]) ^ $maskKeyAry[$i%4]);
}
}
数据内容解析
如果头部没有标明使用了mask,则数据内容为原数据内容,不需要做任何转换,直接截取。
在数据的接收过程中需要处理的以下问题:
- 数据包的完整性
因为websocket是基于tcp协议的。所以一个websocket数据包在发送的时候,也是有可能出现tcp的多包形式,也就是说如果websocket数据包比较大,在接收的时候可能并不是收到一次,可能收到多次这个数据包的片段。所以这里在接收的过程中需要对数据包进行完整性确定。
例如: 有个数据包是这样的
[头部]1234567890abcdefg
通过tcp接收可能收到这样的几个包
[头部]123
4567890abc
defg
如果第一个包直接解析,可以解析出内容123。但是第二个数据包和第三个数据包就无法通过websocket数据包协议进行解析,因为缺少了头部。
所以解析websocket数据包时, 需要处理数据包的完整性问题,接收到数据包完整后再进行websocket数据包协议的解析。
完整性可以通过以下方法进行:
- 如果收到包之后没有解析到
payload length
,则继续等待数据 - 如果解析到了
payload length
,则判断数据内容长度是否足够, 当足够时再进行解析. - 当数据包足够时, 将剩余的字符当做下一个wensocket数据包协议进行解析
因为在多个数据包发送过来的时候, 有可能出现如下的情况:
[头部]1234567890abcdefg[头部]99i2i2i[头部]123ioi2o3i
2389oeowioei[头部]wiieowieoiwoe
- 数据的完整性
websocket是支持分包的。当头部的FIN
为0时, 表示是一个分包,遇到分包解析到数据之后,需要等待到一个FIN
为1的包(最终包), 并解析数据。分包数据和最终包的数据合并才是一个完整的数据。
数据包示例如下(4条websocket消息):
[头部-分包]1234567890abcdefg[头部-分包]99i2i2i[头部-终包]123ioi2o3i[头部-分包]99i2i2i[头部-终包]123ioi2o3i[头部-终包]123ioi2o3[头部-终包]123ioi2o3