protobuff的序列化和反序列化编码实现

服务器开发中程序数据的两种表示形态：

保存在内存中的数据。
需要在网络/磁盘上面传输或存储的数据，这个时候编码需要成为某一种字节序列。

两种类型之间的转换，叫做序列化和反序列化。总结一下我理解的几种序列化/反序列话的方法的优缺点。

1. 使用语言层面的序列化包/库

比如说python有pickle这样的包，可以把rt的数据转换成一种字节编码进行序列化。

优缺点：

仅限于某一种语言，没有办法跨语言。
编码的效率似乎不高
服务器开发中数据的格式往往在不停的变化，需要向前兼容和向后兼容。比如一个结构体里面的元素，可能在不停的添加。这样需要序列化的时候，可以多个版本的数据之间兼容。
看到有人说，这种方式不安全。（我没有体会到）

2. json/xml 序列化工具

这种工具应该是第一种方式的改良，比如说，我可以python --> 序列化为json --> 反序列化 --> go 。这样可以使用跨语言的数据表示。这应该是我理解到的优点。

缺点：

依然是编码效率低（相比较二进制的编码而言，类似于人可以看懂的编码的效率是低的）
依然是没有向前向后兼容

3. 二进制json的工具

这个类型的方式是上一种方式的改进，二进制的编码效率更高。但是，这个二进制的编码的内容和后面提及的protobuff的二进制编码是不一样的。二进制的json可以理解为对json内容用二进制的方式表示，二进制的数据里面是包含json的key和value的。但是，protobuff的二进制是不保存key的，只保存value，这样效率更高。

缺点：

依然没有办法多版本的数据兼容
编码效率还可以提高

4. protobuff

protobuff是前面几种方式的改进。

通过版本号的机制，解决了数据的多版本之间的兼容。
protobuff采用二进制编码，效率比较高。这个和二进制json不同的是，它的二进制数据中是不包含key的，只有value。
protobuff类似可变长编码的机制进行压缩数据，这样的编码效率会进一步的提高。
可以自动生成多种语言的数据描述文件，实现跨语言。

protobuff

pb是开源的，官方的文档的介绍 https://developers.google.com/protocol-buffers/docs/encoding。简单的学习了一下自己好奇的几个问题pb底层是如何实现的，整理在这里。第一个问题是，pb是如何编码/解码的，第二是pb如何做到向前兼容的。

1. pb是如何编码/解码的？

pb的编码规则的基本思路是TTLV(TAG-TYPE-[LEN]-VALUE)。通过tag指定数据类型，value指定数据的值，LEN指定数据的长度（对数据类型不是固定长度的需要此字段，比如string类型）。

- int类型是如何被编码的？
Tag-Type的组成是 = (tag<<3)|type。tag指的是定义proto文件中每个消息对应的id。比如,datetime的消息id就是1。

message HeartBeatMessage{
       int64  dateTime = 1;
       string hostName = 2;
       string ip = 3;
       string info = 4;
}

type的定义如下：

注意上图中，3 和 4 已经被废弃了，所以 type 取值目前只有 0、1、2、5。

那么对应上面定义的dataTime字段，它的TAG编码是：

tag = 1
type = 0
tag << 3 | type = 0000 1000

对应是数值类型的编码，这里需要指明长度和value。pb采用了varint编码，规则如下：

   0 ~ 2^07 - 1 0xxxxxxx
2^07 ~ 2^14 - 1 1xxxxxxx 0xxxxxxx
2^14 ~ 2^21 - 1 1xxxxxxx 1xxxxxxx 0xxxxxxx
2^21 ~ 2^28 - 1 1xxxxxxx 1xxxxxxx 1xxxxxxx 0xxxxxxx
2^28 ~ 2^35 - 1 1xxxxxxx 1xxxxxxx 1xxxxxxx 1xxxxxxx 0xxxxxxx

varint编码中的每个字节都设置了最高有效位为1则表明后面的字节还是属于当前数据的,如果是0那么这是当前数据的最后一个字节数据。

比如数字：100100对应的varint编码是什么？

十进制     ：   100100
对应的二进制:    0000 0001  1000 0111  0000 0100
varint编码：     1000 0100  1000 1110  0000 0110

草图如下：

image.png

- string类型是如何被编码的？

message HeartBeatMessage{
       int64  dateTime = 1;
       string hostName = 2;
       string ip = 3;
       string info = 4;
}

对于定义hostname，假设hostname=“dataNode-1000”，它的tag-type是

tag = 2
type = 2
2<<3|2 = 0001 0010

下一个字段是len

“dataNode-1000”的长度是13，那么len=13，对应的十六进制=0d

下一个字段是value

dataNode-1000

验证一下，对于如下代码：

image.png

对应的pb编码后的二进制是：

image.png

解析过程如下：

image.png

2. pb如何版本兼容的

处理兼容的代码应该是在这里：（proto生成cpp文件中）

image.png

pb把 tag 和其类型一起打进去字节流，解码程序只要解析出不认识的 tag，就能知道该字段是新协议定义的，再通过其类型可以推断出该字段内容的长度，就能正确的跳过这部分 buffer，继续解析下一个字段。

demo code：
https://github.com/zhaozhengcoder/CoderNoteBook/tree/master/example_code/pb_demo

3. 几个修饰符什么作用

required，optional，repeat 有什么作用？

proto3去掉了required 和 optional的修饰关键字。
https://zhuanlan.zhihu.com/p/46603988