最近在做一些.net转java的开发工作,碰到了一些在C#中相对比较容易处理,但是在java中不是那么容易处理,或者说,处理方案不是那么明显的问题。Protobuf序列化就是其中一个。
问题背景是:线上有若干的C#的WCF服务需要调用,由于我们的应用是先切换的,在对方服务不改变的情况下,要能做到我们切换成java之后,能够实现访问的平滑过渡。其中一部分服务的请求有对应的.proto契约文件,利用protoc工具可以生成对应的java文件,从而利用生成的java的类代码里的parseFrom方法,实现protobuf序列化;但是偏偏碰到了一个请求参数是String字符串类型的服务,由于没有proto文件,所以就不能生成对应的类,更没有对应的parseFrom方法,出现了难题。
在C#中,原来采用的protobuf-net.dll这个库,里面可以采用如下方式对字符串类型 (或者其他基本类型)进行序列化:
public static string SerializeObject(T obj) where T : class
{
string result = "";
try{
using (MemoryStream stream = new MemoryStream()){
Serializer.Serialize(stream, obj);
result = System.Convert.ToBase64String(stream.ToArray());
//序列化方式
result = string.Format("{0}{1}", "protobuff", result);
}
catch (Exception e){
throw e;
}
return result;
}
}
而Java则开始没有这种统一的泛型序列化方式,于是趁这个机会,了解了一些protobuf底层序列化的原理。
以String类型的序列化为例,首先要说的是protobuf中用到的varint编码。
Varint 是一种紧凑的表示数字的方法。它用一个或多个字节来表示一个数字,值越小的数字使用越少的字节数。这能减少用来表示数字的字节数。比如对于 int32 类型的数字,一般需要 4 个 byte 来表示。但是采用 Varint,对于很小的 int32 类型的数字,则可以用 1 个 byte 来表示。当然凡事都有好的也有不好的一面,采用 Varint 表示法,大的数字则需要 5 个 byte 来表示。从统计的角度来说,一般不会所有的消息中的数字都是大数,因此大多数情况下,采用 Varint 后,可以用更少的字节数来表示数字信息。
对于每个字节的最高位来说,为了能够确认,一个数是由几个字节来进行编码的,varint规定:如果该字节的最高位是1,则表示下面一个字节和该字节一起表示同一个数;如果前面两个字节最高位为1,第三个字节最高位为0,则表示要用三个字节来表示一个数。举个例子,比如对应整数200,200 = 128+64+4,显然由于一个字节最多可以表示最大到128,所以200至少要2个字节来进行编码。因此,用二进制表示为: 00000000 11000100. 由于最高位是用来标识是否采用下一个字节来表示数,没有数据意义,所以对于该二进制表示,应该每7位来划分:
0000001,1000100
varint编码采用小端模式,所以应该把这两个字节颠倒过来:
1000100,0000001
由于采用两个字节表示,所以颠倒之后的最高位应该添加1,低字节的高位补0,从而200最终的varint编码为:
11000100,00000001
----------------------------------------------------------华丽的分割线--------------------------------------------------------
当了解了varint编码之后,string类型进行序列化就可以展开说了。
先说protobuf定义message,有两个重要的东东。1.order,表示定义字段的顺序,显然如果只是一个string,就认为order=1;
-
type规则结构类型,表示基本类型在protobuf中的类型,type在protobuf中有如下几个类型:
图1 protobuf中关于基本类型的枚举关系
显然,type有6种,用3个bit就可以表示,protobuf也是这么干的。用一个字节来表示,高5位bit表示order次序,低三位表示规则结构类型,显然对于string类型的序列化,可用一个字节表示:0000 1010,表示order=1,type=2.
回到string序列化本身,通过和C#序列化结果对比,发现string的protobuf序列化结果由几个部分构成:
** head+ length的varint编码+字符串本身的utf-8编码**
** **其中head就是上面用一个字节表示的order+type,length的varint编码表示字符串本身utf-8字节数组长度的varint编码(可能由1-n个字节表示),搞清楚这些后,那string本身的protobuf序列化问题就迎刃而解了,实现代码如下:
private static byte[] protobufSerializeString(String str){
byte [] protoBytes = str.getBytes(StandardCharsets.UTF_8);
int byteLen = protoBytes.length;
List<Byte> encodingLen =varIntEncoding(byteLen);
byte[] result = new byte[protoBytes.length+ encodingLen.size() + 1];
result[0] = 0x0a;
for(int i = 1; i <=encodingLen.size(); i++){
result[i] = encodingLen.get(i - 1);
}
System.arraycopy(protoBytes,0,result,encodingLen.size()+ 1,protoBytes.length);
return result;
}
private static List<Byte> varIntEncoding(int number){
int x = number;
List<Byte> results =new ArrayList<Byte>();
if(x <= 0){
results.add(Byte.parseByte("0"));
return results;
}
while(x != 0){
byte littleData = (byte)(x & (byte)0x7f);
results.add(littleData);
x = x >> 7;
}
for(int i = 0 ;i < results.size()-1;i++){
results.set(i, (byte)(results.get(i)| 0x80));
}
return results;
}
通过过程本身,了解到了底层protobuf的序列化原理,还是很有收获的。
如果以上有说的不对的地方,还望阅读者指出~~~~