关于java中protobuf中序列化基本类型的原理探索及解决方案

最近在做一些.net转java的开发工作,碰到了一些在C#中相对比较容易处理,但是在java中不是那么容易处理,或者说,处理方案不是那么明显的问题。Protobuf序列化就是其中一个。
问题背景是:线上有若干的C#的WCF服务需要调用,由于我们的应用是先切换的,在对方服务不改变的情况下,要能做到我们切换成java之后,能够实现访问的平滑过渡。其中一部分服务的请求有对应的.proto契约文件,利用protoc工具可以生成对应的java文件,从而利用生成的java的类代码里的parseFrom方法,实现protobuf序列化;但是偏偏碰到了一个请求参数是String字符串类型的服务,由于没有proto文件,所以就不能生成对应的类,更没有对应的parseFrom方法,出现了难题。
在C#中,原来采用的protobuf-net.dll这个库,里面可以采用如下方式对字符串类型 (或者其他基本类型)进行序列化:

public static string SerializeObject(T obj) where T : class       
 {           
            string result = "";            
            try{        
                  using (MemoryStream stream = new MemoryStream()){           
                  Serializer.Serialize(stream, obj);
                  result = System.Convert.ToBase64String(stream.ToArray());
                //序列化方式
                  result = string.Format("{0}{1}", "protobuff", result);
                  }
                  catch (Exception e){
                    throw e;
                  }
                  return result;
              }
}

而Java则开始没有这种统一的泛型序列化方式,于是趁这个机会,了解了一些protobuf底层序列化的原理。
以String类型的序列化为例,首先要说的是protobuf中用到的varint编码。
Varint 是一种紧凑的表示数字的方法。它用一个或多个字节来表示一个数字,值越小的数字使用越少的字节数。这能减少用来表示数字的字节数。比如对于 int32 类型的数字,一般需要 4 个 byte 来表示。但是采用 Varint,对于很小的 int32 类型的数字,则可以用 1 个 byte 来表示。当然凡事都有好的也有不好的一面,采用 Varint 表示法,大的数字则需要 5 个 byte 来表示。从统计的角度来说,一般不会所有的消息中的数字都是大数,因此大多数情况下,采用 Varint 后,可以用更少的字节数来表示数字信息。
对于每个字节的最高位来说,为了能够确认,一个数是由几个字节来进行编码的,varint规定:如果该字节的最高位是1,则表示下面一个字节和该字节一起表示同一个数;如果前面两个字节最高位为1,第三个字节最高位为0,则表示要用三个字节来表示一个数。举个例子,比如对应整数200,200 = 128+64+4,显然由于一个字节最多可以表示最大到128,所以200至少要2个字节来进行编码。因此,用二进制表示为: 00000000 11000100. 由于最高位是用来标识是否采用下一个字节来表示数,没有数据意义,所以对于该二进制表示,应该每7位来划分:

                       0000001,1000100

varint编码采用小端模式,所以应该把这两个字节颠倒过来:

                       1000100,0000001

由于采用两个字节表示,所以颠倒之后的最高位应该添加1,低字节的高位补0,从而200最终的varint编码为:

                      11000100,00000001

----------------------------------------------------------华丽的分割线--------------------------------------------------------
当了解了varint编码之后,string类型进行序列化就可以展开说了。
先说protobuf定义message,有两个重要的东东。1.order,表示定义字段的顺序,显然如果只是一个string,就认为order=1;

  1. type规则结构类型,表示基本类型在protobuf中的类型,type在protobuf中有如下几个类型:


    图1 protobuf中关于基本类型的枚举关系

    显然,type有6种,用3个bit就可以表示,protobuf也是这么干的。用一个字节来表示,高5位bit表示order次序,低三位表示规则结构类型,显然对于string类型的序列化,可用一个字节表示:0000 1010,表示order=1,type=2.
    回到string序列化本身,通过和C#序列化结果对比,发现string的protobuf序列化结果由几个部分构成:
    ** head+ length的varint编码+字符串本身的utf-8编码**
    ** **其中head就是上面用一个字节表示的order+type,length的varint编码表示字符串本身utf-8字节数组长度的varint编码(可能由1-n个字节表示),搞清楚这些后,那string本身的protobuf序列化问题就迎刃而解了,实现代码如下:

private static byte[] protobufSerializeString(String str){
            byte [] protoBytes = str.getBytes(StandardCharsets.UTF_8);
            int  byteLen = protoBytes.length;
            List<Byte> encodingLen =varIntEncoding(byteLen);
            byte[] result = new byte[protoBytes.length+ encodingLen.size() + 1];
            result[0] = 0x0a;
            for(int i = 1; i <=encodingLen.size(); i++){  
                result[i] = encodingLen.get(i - 1);
            }
            System.arraycopy(protoBytes,0,result,encodingLen.size()+ 1,protoBytes.length);
            return result;
}
private static List<Byte> varIntEncoding(int number){
          int x = number;
          List<Byte> results =new ArrayList<Byte>();
          if(x <= 0){
              results.add(Byte.parseByte("0"));
              return results;
          }  
          while(x != 0){ 
              byte littleData =  (byte)(x & (byte)0x7f);
              results.add(littleData);
              x = x >> 7;
          }
          for(int i = 0 ;i < results.size()-1;i++){
              results.set(i, (byte)(results.get(i)| 0x80));
          }
          return results;
}

通过过程本身,了解到了底层protobuf的序列化原理,还是很有收获的。
如果以上有说的不对的地方,还望阅读者指出~~~~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,163评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,301评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,089评论 0 352
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,093评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,110评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,079评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,005评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,840评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,278评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,497评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,394评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,980评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,628评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,649评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,548评论 2 352

推荐阅读更多精彩内容