关于protobuf:protocol-buffer的高效编码方式

protocol buffer 这种优良的编码方式，到底底层是怎么工作的呢？为什么它能够实现高效疾速的数据传输呢？这所有都要从它的编码方式说起。

咱们晓得 protocol buffer 的主体就是 message, 接下来咱们从一个简略的 message 登程，具体解说 protobuf 中的编码方式。

比方上面的一个非常简单的音讯对象：

message Student {optional int32 age = 1;}

在下面的例子中，咱们定义了一个 Student 音讯对象，并给他定义了一个名叫 age 的字段, 并给它设置一个值叫做 22。而后应用 protobuf 将其进行序列化，这么大的一个对象，对其序列化之后的字节如下所示：

08 96 00

很简略，应用三个字节就能够示意一个 messag 对象，数据量十分小。

那么这三个字节到底示意什么意思呢？一起来看看吧。

在解释下面的三个字节的含意之前，咱们须要理解一个 varints 的概念。

什么叫 Varints 呢？就是序列化整数的时候，占用的空间大小是不一样的，小的整数占用的空间小，大的整数占用的空间大，这样不必固定一个具体的长度，能够缩小数据的长度，然而会带来解析的复杂度。

那么怎么晓得这个数据到底须要几个 byte 呢？在 protobuf 中，每个 byte 的最高位是一个判断位，如果这个位被置位 1，则示意前面一个 byte 和该 byte 是一起的，示意同一个数，如果这个位被置位 0，则示意前面一个 byte 和该 byte 没有关系，数据到这个 byte 就完结了。

举个例子，一个 byte 是 8 位，如果示意的是整数 1，那么能够用上面的 byte 来示意：

0000 0001

如果一个 byte 装不下的整数，那么就须要应用多个 byte 来进行连贯操作，比方上面的数据表示的是 300：

1010 1100 0000 0010

为什么是 300 呢？首先看第一个 byte，它的首位是 1，示意前面还有一个 byte。再看第二个 byte，它的首位是 0，示意到此就完结了。咱们把判断位去掉，变成上面的数字：

010 1100 000 0010

这时候还不能计算数据的值，因为在 protobuf 中，byte 的位数是反过来的，所以咱们须要把下面的两个 byte 替换一下地位：

000 0010 010 1100

也就是：

10 010 1100

=256 + 32 + 8 + 4 = 300

从 message 的定义能够晓得，protobuf 中的音讯体的构造是 key=value 的模式，其中的 key 就是 message 中定义的字段的整数值 1，2，3，4 等。而 value 就是真正对其设置的值。

当一个音讯被编码之后，这些 key 和 value 会被连贯在一起，组成一个 byte stream。当要对其进行解析的时候，须要定位到 key 和 value 的具体长度，所以在 key 中须要蕴含两局部，第一个局部就是字段在 proto 文件中的值，第二个局部就是 value 局部占用的长度大小。

只有通过这两个局部的值联合起来，解析器才可能正确的对字段进行解析。

key 的这种格局，被称为 wire types，有哪些 wire types 呢？咱们看一下：

类型	含意	应用场景
0	Varint	int32, int64, uint32, uint64, sint32, sint64, bool, enum
1	64-bit	fixed64, sfixed64, double
2	Length-delimited	string, bytes, embedded messages, packed repeated fields
3	Start group	groups (deprecated)
4	End group	groups (deprecated)
5	32-bit	fixed32, sfixed32, float

能够看到除了 3，4 两种类型之外，其余的类型能够分为三类，一类是固定长度的类型，如 1，5，他们别离是 64 位和 32 位的数字。

第二类是 0，示意 Varint，这是一种可变类型，用来示意通用的数字类型，bool 类型和枚举类型。第三类 2，示意长度辨别的类型，这种类型通常用来示意字符串，字节数字等。

所有的 key 都是一个 varint 类型，它的值是：(field_number << 3) | wire_type ，也就是说 key 的最初三个位，用来存储 wire 类型。

下面咱们例子中的 key 的值是 08，用二进制示意：

000 1000

最初三位是 0，示意是一个 Varint 类型，将 08 右移三位，失去 1，示意 key 示意的字段是 1 这个字段，也就是 age。

而后咱们看下剩下的局部 96 00，换成二进制是：

96 00 = 1001 0110  0000 0000

依据 Varint 的定义，第一位示意的是连贯位，示意第二个字节的内容和第一个字节的内容是一起的。对于 Varint 来说，须要将低位的字节和高位的字节进行替换，如下：

1001 0110  0000 0000 去掉最高位的 1：001 0110  0000 0000  替换低位字节和高位字节：0000 0000  001 0110

下面的值是 16 + 4 + 2 = 22

这样咱们就失去了值为 1 的 key，对应的 value 是 22。

咱们晓得有两种示意符号整数的形式，一种是规范的 int 类型：int32 和 int64，一种是带符号的 int 类型：sint32 和 sint64。

这两种类型的区别在于对应负整数的示意上。对于 int32 和 int64 来说，所有的负整数都是以十个字节来示意的，所以占用的空间会比拟大，不适宜用来示意负整数。

如果应用 sint32 和 sint64，那么应用的编码方式是 ZigZag，对于负整数来说更加无效。

ZigZag 将带符号的整数和无符号的整数进行映射，对于每个 n 来说，将会应用上面的公式来编码：

(n << 1) ^ (n >> 31)

对于 sint64 来说就是：

(n << 1) ^ (n >> 64)

举个例子：

符号整数	编码后果
0	0
-1	1
1	2
-2	3
2147483647	4294967294
-2147483648	4294967295

# 字符串

字符串的 wire 类型是 2，阐明它的值是一个 varint 编码的长度。举个例子：

 message Student {optional string name = 2;}

上咱们给 Student 定义了第二个属性 name，如果给 name 赋值 “testing”，那么失去的编码是：

12 07 [74 65 73 74 69 6e 67]

中括号的编码就是 ”testing” 的 UTF8 示意。

0x12 能够这样解析：

 0x12
→ 0001 0010  (binary representation)
→ 00010 010  (regroup bits)
→ field_number = 2, wire_type = 2

0x12 示意字段 2 的类型是 2，前面跟着的 07 就示意后续 byte 字节的长度了。

音讯中能够嵌套音讯，咱们看一个例子：

message Teacher {optional Student s = 3;}

如果咱们把 s 的 age 字段设置为 22，就和第一个例子一样，那么下面的编码就是：

 1a 03 08 96 00

能够看到前面的三个字节和第一个例子是一样的。后面两个字节的判断形式和字符串是一值的，这样就不再多讲。

好了，protobuf 的根本编码规定和实现曾经讲完了。听起来是不是很微妙？

本文已收录于 http://www.flydean.com/03-protobuf-encoding/

最艰深的解读，最粗浅的干货，最简洁的教程，泛滥你不晓得的小技巧等你来发现！

欢送关注我的公众号:「程序那些事」, 懂技术，更懂你！

关于protobuf:protocol-buffer的高效编码方式

简介

定义一个简略的 message

Base 128 Varints

音讯体的构造

符号整数

嵌套的音讯

总结