造轮子系列之Protobuf

作为一个程序猿,对造轮子这事情可以说是情有独钟,几乎程序猿内心都存在一个梦想是去将开源的技术都实现一遍,所有从本篇开始,我会开一个造轮子系列。

前言

首先,看看这个,想必大家对下面这种简历看得比较多了吧?

精通JAVA,Python,熟练掌握C++

精通Redis,Memcached,Mysql

精通Nginx配置,模块开发

精通Kafka,ActiveMQ 等消息队列

精通常用数据结构和算法

精通网络编程,多线程编程技术,高性能服务器技术

精通tcp/ip协议栈,熟悉内核网络子系统代码

精通nginx代码及模块开发

上面每一条都涉及好多轮子,每一个都是精通,如果真能做到。那这个人可以说是码农中的战斗机。

那我们现在目标就是去做这个战斗机。而这个方法,就是自己去造轮子,造的目的不是为了在项目中使用自己造的轮子,而是为了去了解轮子的构造,然后自己动手去体会造轮子的过程。

后端的轮子们

说起后端的轮子们,大家都可以说出一大串来,我们大致来数一数啊。

抗在最前面的:LVS,F5,HAProxy这类负载均衡

接下来有Nginx,Apache,Lighttpd这类Http服务

http服务后则是各种容器,部署着我们的业务逻辑

存储这边有Redis,Memcached这一类KV存储器和缓存系统

如果是多机部署,肯定还有Kafka,ActiveMQ这种负责解耦的消息队列

为了实现集群通信,肯定少不了Thrift这种RPC框架和Protobuf这种序列化技术

再高端点,到了分布式领域了,就是更多的轮子了。。zookeeper、raft等等

还有大数据系列hadoop。spark。。。。。

本文先开始我们的第一个轮子,服务器通信需要用的数据序列化反序列技术:protobuf。

基础轮子:protobuf

讲基础前,先附上一张极客时间中的一个技术需要从哪些角度来讲的图片,本文也会尽可能从这些个方面来讲。

应用角度

1. 问题:”干什么用“

2. 技术规范:”怎么用“

3. 最佳实践:”怎么能用好“

4. 市场应用趋势:“谁用,用在哪”

设计角度

1. 目标:“做到什么”

2. 实现原理:“怎么做到”

3. 优劣局限:“做得怎么样”

4. 演进趋势:“未来如何”

正文

Protocol buffers

从应用角度看protobuf是干什么用的?

序列化数据用的?什么时候需要序列化?当数据需要存储或者网络传输的时候。为什么呢?

在存储或者传输的时候,我们能看到都是一些二进制数据,即010101……的bit。

假设我们看的一个对象是:

Struct myData {

Int a;

Int b;

}

data = myData {

a:1,

b:2,

}

那我们在网络上收到是一个字节流,我们为了能够从字节流中恢复出数据 data,我们要做的工作是:

正确识别出data在字节流中开始和结束的位置

识别出a的值,识别出b的值

一个可能的字节流协议就是:

刚开始是8bit标明后续数据是哪个结构,然后是两个4字节表示a和b。

注意!!!!!上面做出上面这个假设,有几点是我们默认的:

我们认为字节流开始先是8bit标明是哪个数据结构,此处是myData(ps:不同结构之间编号不同)

最多能够支持2^8种结构

通讯双方都需要拿到myData的定义文件

以下是一个上面实现的示例代码:

可以看到在go中很容易就实现了我们的一个数据结构的序列化反序列化。

设计角度,做到什么?

上面我们只是实现了一个最简单的实现了一个序列化方法,下面我们来看如果要实现一个生产环境中的序列化协议,需要做到哪几点。

通用性:语言、平台无关

高性能:序列化和反序列化都要快

高压缩:序列化后数据尽可能小,小就意味着网络传输数据少

兼容性:数据结构改变了,也能够支持新老版本

下面我们带着这些目标来从应用角度来看下”怎么用“

这个就是官方文档了https://developers.google.com/protocol-buffers/docs/gotutorial,里面有详细的说明,另外我自己给了一份使用示例:https://github.com/zhuanxuhit/go-in-practice/tree/master/wheel/protobuf/v2

讲完使用下面就是设计角度:如何做到的?

首先我们看前文我们自己实现的简易序列化、反序列方法,我们对每个结构进行编码,然后在头部写上该结构是啥,然后后面就是结构中每个字段的具体值,接着我们写了序列化器的目标是:简易、高效、兼容,下面我们从这几个方面来看protobuf有什么改进的地方。

先来个小插曲,protobuf全称是Protocol buffers,其中buffers点名了使用上非常重要的一个点,即我们在反序列化的一段二进制数据的时候,我们要将其先读入到buffer中,然后再识别出单个数据结构的开头和结尾,最后才能正确的反序列化出来。

前面我们设计的时候,还在头部对数据结构进行了编码,那为了能够做到更高效,数据更小,我们是否可以把这个头也去掉呢?

当然是可以的,于是我们的结构就变为了只有对应的字段值了,这么做的一个前提是:!!我们必须清楚知道我们识别出来二进制数据,其对应的具体是哪个数据结构。!!

现在我们去掉了结构描述,那怎么能够做到更小呢?譬如同样是int64,1 和 1<<32没必要都用8字节来表示,譬如我们可以先对数据类型做一个编码,然后紧跟着后续使用的bit,再跟着真正的数据。

每个部分分别用几个bit来表示呢?

数据类型:根据支持的类型进行编码,如果总共能支持16种类型,那就是4bit

后续有效字节:这个比较难办,由于我们不确定数据大小,我们就无法固定bit来表示。

那一个解决方法就是:我们去掉有效字节的字段,我们把这个是否有更多数据信息编码进数据本身中,示意图如下:

解决了编码int类型的字段后,如果遇到string类型呢?这种类型首先也是数据类型描述,接着应该要是编码后续有效字节,这是一个int,这可以采用上面的方法来编码,再跟着就是有效数据了。

以上就是protobuf在编码数据时采用编码方式的主要思想,具体可以看https://developers.google.com/protocol-buffers/docs/encoding。

目前protobuf支持的数据类型

上面有个主意的对于有符号数,我们要单独处理下,因为有符号数的最高位是通过0,1来表示正负的,但是上面编码中最高位却用来表示是否有后续数据了,所以我们要通过ZigZag 编码将有符号转换为无符号。

原理很简单,就是通过下面的编码方式:

解决了编码后,我们来看最后一个问题:兼容性。

如果我们改变了数据结构:新增或者删除了字段怎么办???

这个也好解决,那我们就给所有字段加上编号,通过字段来表示这个数据是结构体中哪个字段,protobuf在设计上编码方式如下:

图片来自:高效的数据压缩编码方式 Protobuf

从上图中tag的编码,我们可以发现,如果field_num > 16的话,tag编码出来会使用超过1字节,所有对于我们经常使用的字段,建议将其编码到0-15,减少tag位数。

实现原理小结

下面我们对上面介绍的实现原理做个小结

高效:变长编码,非自描述

兼容:对filed进行编码

下面我们再从应用角度讲下 protobuf 的最佳实践和市场应用趋势。

protobuf刚开始设计出来主要是为了解决接口兼容性问题,目前是主要用在内部服务之间RPC调用和传递数据,目前时候用protobuf作为序列化的rpc框架有gRPC,这也是后续我们会介绍的。

最后我们从设计角度来看下protobuf的优劣局限和演进趋势。

优点

protobuf最大的优点就是前后兼容性,已经部署的使用老数据格式的服务,即使接口升级了也可以继续使用,然后就是性能,当然是快了,具体可以看 序列化 / 反序列化性能

缺点

相比较json来说,可读性差,特别是在调试阶段,相比较json我们无法清晰的知道输入和输出。

最后

总结下本文

Protobuf设计之初主要是为了解决兼容性问题,实现上是对每个字段进行编号,当遇到不存在的字段时,则忽略掉。

Protobuf为了能够做到高性能,在编码时采用了Tag - Value (Tag - Length - Value)的方式,使序列化后的数据更紧凑

Protobuf为了能够做到高性能,丢弃了自描述信息,即我们只拿到数据,而没有拿到proto文件,我们是无法反序列数据的

Protobuf提供了一套编译工具,能够生成不同语言的数据序列化、反序列化方法,极大的提高了易用性

预告

下一篇我们会介绍grpc,来看下rpc框架中是怎么使用protobuf的。

参考

高效的数据压缩编码方式 Protobuf

官方文档

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335

推荐阅读更多精彩内容