Google Protocol Buffers 简介（一）

Google Protocol Buffers是什么

Google Protocol Buffers 简称 Protobuf，它提供了一种灵活、高效、自动序列化结构数据的机制，可以联想 XML，但是比 XML 更小、更快、更简单。仅需要自定义一次你所需的数据格式，然后用户就可以使用 Protobuf 编译器自动生成各种语言的源码，方便的读写用户自定义的格式化的数据。与语言无关，与平台无关，还可以在不破坏原数据格式的基础上，依据老的数据格式，更新现有的数据格式。

Protobuf 的特点简单总结如下几点：

作用与 XML、json 类似，但它是二进制格式，性能好、效率高
代码生成机制，易于使用
解析速度快
支持多种语言
向后兼容、向前兼容
缺点：可读性差

目前，Protobuf 提供了两个大版本： 2.x 版本和 3.x 版本。 2.x 版本最新的版本是 2.6.1，支持 C++、Java 和 Python 三种语言的API。 3.x 版本最新的版本是 3.0.0-beta-1，支持 C++、Java、Python、Ruby、JavaNano、Objective-x 和 C# 这几种语言的 API。

Protobuf 如何工作

用户在 .proto 文件中定义 message 来指定所需要序列化的数据格式。每一个 message 都是一个小的信息逻辑单元，包含一系列的 name-value 值对。下面举例来说明一个简单的 .proto 文件，它定义了一条包含 Person 信息的 message。

message Person
{
    required string name = 1;
    required int32 id = 2;
    optional string email = 3;

    enum PhoneType
    {
        MOBILE = 0;
        HOME = 1;
        WORK = 2;
    }

    message PhoneNumber
    {
        required string number = 1;
        optional PhoneType type = 2 [default = HOME];
    }

    repeated PhoneNumber phone = 4;
}

从以上代码来看，message 格式非常简单。每种类型的 message 包含一个或者多个唯一编码字段，每个字段由名称和值类型组成，值类型可以是数字（整形或者浮点型）、布尔值、字符串、原始字节，甚至是其他的 message（如上例所示）。Protobuf 允许 message 中包含 message，以达到分层嵌套。message 中可以定义 optional 字段、required 字段和 repeated 字段。

定义好 message 后，运行 Protobuf 编译器编译 .proto 文件，就可以生成存取数据的相关类。这些类包括简单的设置及读取字段（比如 name() 和 set_name() ）的方法，也包括整个数据结构的 message 和原始字节之间的序列化/反序列化的转换方法。举个例子，如果你选择的是 C++ 语言，运行 Protobuf 编译器编译以上 .proto 文件生成 Person 类。你就能使用这个类去填充、序列化、检索 Person message。如下代码：

Person person;
person.set_name("zebra");
person.set_id(123);
person.set_email("zebra@example.com");
fstream output("myfile", ios::out | ios::binary);
person.SerializeToOstream(&output);

接下来，用如下代码来读取 message:

fstream input("myfile", ios::in | ios::binary);
Person person;
person.ParseFromIstream(&input);
cout << "Name: " << person.name() << endl;
cout << "E-mail" << person.email() << endl;

Protobuf 是易于扩展的，可以向后兼容，我们可以在 message 中添加新字段，在解析的时候，老版本的数据就会忽略新增加的字段。因此，如果现有通讯协议使用 Protobuf 做为其数据格式，我们可以直接扩展该通讯协议，而不必担心着将会破坏现有的代码。关于使用 .proto 文件生成目标代码，后面将会介绍。

如何使用 Protobuf

我们使用 Protobuf 和 C++ 开发一个简单的例子程序，该程序实现将一些结构化数据写入文件和读取文件。

首先下载 Protobuf 2.6.1 源码。下载页面：Protobuf github

编译安装 Protobuf

Linux用户编译安装如下：

tar -xzf protobuf-2.6.1.tar.gz
cd protobuf-2.6.1
./autogen
./configure --prefix=$INSTALL_DIR
make
make check
make install

如有问题，请认真阅读 protobuf-2.6.1/README.md 和 protobuf-2.6.1/INSTALL.txt。

windows 用户编译安装如下：

打开 protobuf-2.6.1/vsprojects/protobuf.sln。
将项目 libprotobuf 设置为启动项目。
编译 sln，Debug 模式和 Release 模式都编译一下。
在 vsprojects/Debug 和 vsprojects/Release 目录下会有 libprotobuf.lib、libprotobuf-lite.lib、libprotoc.lib 和 protoc.exe文件。
新建一个名为 “Install” 的文件夹，在 “Install” 目录下再新建三个文件夹，分别是 “bin”、“include” 和 “lib”。将编译生成的 protoc.exe 拷贝到 “bin” 目录下，将编译生成的 lib 库文件拷贝到 “lib” 目录下，将 protobuf/src 下的源文件拷贝 “include” 目录下。

书写 .proto 文件

定义一个关于个人信息的 .proto 文件，内容如下：

package tutorial;

message Person
{
    required string name = 1;
    required int32 age = 2;
    optional string email = 3;
}

编译 .proto 文件，生成 C++ 文件

使用 cmd 运行 proto.exe 生成我们的目标语言格式（C++）。命令行格式如下：

protoc.exe -I=$SRC_DIR --cpp_out=$DST_DIR $SRC_DIR/person.proto

-I：指定 .proto 文件所在的路径。

--cpp_out：指定生成的目标文件存在的路径。

最后的参数是你需要生成的 .proto 文件名。

上例会生成 person.pb.h 和 person.pb.cc 的文件。person.pb.h 定义了 C++ 类的头文件，person.pb.cc 是 C++ 类的实现文件。

使用 Protobuf 库提供的 API 来编写应用程序。

使用 Protobuf 库来编写应用程序时，需要包含 Protobuf 的头文件，还需要链接库文件。person.pb.h 头文件定义了设置和读取字段的方法，还有序列化和反序列化的方法，可以很方便的调用，可以参考上一章节的实例。

Google Protocol Buffers 简介（一）