服务器开发中程序数据的两种表示形态:
- 保存在内存中的数据。
- 需要在网络/磁盘上面传输或存储的数据,这个时候编码需要成为某一种字节序列。
两种类型之间的转换,叫做序列化和反序列化。总结一下我理解的几种序列化/反序列话的方法的优缺点。
1. 使用语言层面的序列化包/库
比如说python有pickle这样的包,可以把rt的数据转换成一种字节编码进行序列化。
优缺点:
- 仅限于某一种语言,没有办法跨语言。
- 编码的效率似乎不高
- 服务器开发中 数据的格式 往往在不停的变化,需要向前兼容和向后兼容。比如一个结构体里面的元素,可能在不停的添加。这样需要序列化的时候,可以多个版本的数据之间兼容。
- 看到有人说,这种方式不安全。(我没有体会到)
2. json/xml 序列化工具
这种工具应该是第一种方式的改良,比如说,我可以python --> 序列化为json --> 反序列化 --> go 。这样可以使用跨语言的数据表示。这应该是我理解到的优点。
缺点:
- 依然是编码效率低 (相比较二进制的编码而言,类似于人可以看懂的编码的效率是低的)
- 依然是没有向前向后兼容
3. 二进制json的工具
这个类型的方式是上一种方式的改进,二进制的编码效率更高。但是,这个二进制的编码的内容和后面提及的protobuff的二进制编码是不一样的。二进制的json可以理解为对json内容用二进制的方式表示,二进制的数据里面是包含json的key和value的。但是,protobuff的二进制是不保存key的,只保存value,这样效率更高。
缺点:
- 依然没有办法多版本的数据兼容
- 编码效率还可以提高
4. protobuff
protobuff是前面几种方式的改进。
- 通过版本号的机制,解决了数据的多版本之间的兼容。
- protobuff采用二进制编码,效率比较高。这个和二进制json不同的是,它的二进制数据中是不包含key的,只有value。
- protobuff类似可变长编码的机制进行压缩数据,这样的编码效率会进一步的提高。
- 可以自动生成多种语言的数据描述文件,实现跨语言。
protobuff
pb是开源的,官方的文档的介绍 https://developers.google.com/protocol-buffers/docs/encoding。简单的学习了一下自己好奇的几个问题pb底层是如何实现的,整理在这里。第一个问题是,pb是如何编码/解码的,第二是pb如何做到向前兼容的。
1. pb是如何编码/解码的?
pb的编码规则的基本思路是TTLV(TAG-TYPE-[LEN]-VALUE)。通过tag指定数据类型,value指定数据的值,LEN指定数据的长度(对数据类型不是固定长度的需要此字段,比如string类型)。
- int类型是如何被编码的?
Tag-Type的组成是 = (tag<<3)|type。tag指的是定义proto文件中每个消息对应的id。比如,datetime的消息id就是1。
message HeartBeatMessage{
int64 dateTime = 1;
string hostName = 2;
string ip = 3;
string info = 4;
}
type的定义如下:注意上图中,3 和 4 已经被废弃了,所以 type 取值目前只有 0、1、2、5。
那么对应上面定义的dataTime字段,它的TAG编码是:
tag = 1
type = 0
tag << 3 | type = 0000 1000
对应是数值类型的编码,这里需要指明长度和value。pb采用了varint编码,规则如下:
0 ~ 2^07 - 1 0xxxxxxx
2^07 ~ 2^14 - 1 1xxxxxxx 0xxxxxxx
2^14 ~ 2^21 - 1 1xxxxxxx 1xxxxxxx 0xxxxxxx
2^21 ~ 2^28 - 1 1xxxxxxx 1xxxxxxx 1xxxxxxx 0xxxxxxx
2^28 ~ 2^35 - 1 1xxxxxxx 1xxxxxxx 1xxxxxxx 1xxxxxxx 0xxxxxxx
varint编码中的每个字节都设置了最高有效位为1则表明后面的字节还是属于当前数据的,如果是0那么这是当前数据的最后一个字节数据。
比如数字:100100对应的varint编码是什么?
十进制 : 100100
对应的二进制: 0000 0001 1000 0111 0000 0100
varint编码: 1000 0100 1000 1110 0000 0110
草图如下:
- string类型是如何被编码的?
message HeartBeatMessage{
int64 dateTime = 1;
string hostName = 2;
string ip = 3;
string info = 4;
}
对于定义hostname,假设hostname=“dataNode-1000”,它的tag-type是
tag = 2
type = 2
2<<3|2 = 0001 0010
下一个字段是len
“dataNode-1000”的长度是13,那么len=13,对应的十六进制=0d
下一个字段是value
dataNode-1000
验证一下,对于如下代码:
对应的pb编码后的二进制是:
解析过程如下:
2. pb如何版本兼容的
处理兼容的代码应该是在这里:(proto生成cpp文件中)
pb把 tag 和其类型一起打进去字节流,解码程序只要解析出不认识的 tag,就能知道该字段是新协议定义的,再通过其类型可以推断出该字段内容的长度,就能正确的跳过这部分 buffer,继续解析下一个字段。
demo code:
https://github.com/zhaozhengcoder/CoderNoteBook/tree/master/example_code/pb_demo
3. 几个修饰符什么作用
required,optional,repeat 有什么作用?
proto3去掉了required 和 optional的修饰关键字。
https://zhuanlan.zhihu.com/p/46603988