大数据技术已经从几年前的热门概念落地为实用技术,为互联网贡献了重要力量。
随着移动应用发展,数据紧密包裹用户,
数据分析(OLAP)要求日益提高,数据量、查询延时都面临极大挑战。
这种情况下,列存、行列混存数据库技术,在冷门多年后又重新获得了极大关注。
我们一起来看个案例,Mark Litwintschik使用十亿条的士载客记录,
在不同的软硬件平台上测试了的分析查询性能:
http://tech.marksblogg.com/benchmarks.html
可以看到,除了MapD(GPU数据分析平台)遥遥领跑之外,
(跑在8路泰坦、半T内存这种怪兽硬件上)
列存数据库ClickHouse仅凭借单机普通硬件,
就达到了Spark这样专门的大数据平台的百倍性能,非常惊人。
基于此,近期考虑对OLAP架构,尤其是列存数据库做深入的学习探索,
相关笔记就在此记录。
一些资料
VLDB、SIGMOD、ICDE:
数据库技术最重要的期刊会议。
Vertica:
HP的商业列存数据库,以C-Store为原型,在AWS上有托管分析服务售卖。
在最开始的测试案例中,可以看到Vertica虽然没有ClickHouse快,
但也以单机跑出了接近10节点Spark集群的成绩。
Daniel.J.Abadi:
列存数据库C-Store的开发者,在各大期刊上发表过多篇关于列存数据库的Paper。
其09年的“Query Execution in Column-Oriented Database Systems”,
对列存数据库的各方面都做了详细叙述。
何为列存数据库?
我们熟悉的Mysql等数据库,是按行存放数据的:
+--------+-----+
| name | age |
+--------+-----+
| 孙丽华 | 21 |
| 王永恒 | 23 |
| 张伟朋 | 21 |
+--------+-----+```
这样的数据存储方式,每次增加数据可以在末尾增加一行就行。
(实际比此复杂)
列存数据库则把行列倒转,并把不同列分开存放:
+--------+--------+--------+--------+
| name | 孙丽华 | 王永恒 | 张伟朋 |
+--------+--------+--------+--------+
+--------+--------+--------+--------+
| age | 21 | 23 | 21 |
+--------+--------+--------+--------+
列存数据库在增加数据时IO不连续,需要在每个列后面追加数据,写性能不佳,
因此一直没有成为主流的业务系统(OLTP)的首选数据库。
如前所述,大数据量下的OLAP是个挑战,它的用况特征我们可以列举一下:
- 数据是批量导入的,导入后不修改
- 绝大多数是读操作
- 每个表有很多列,分析操作经常只涉及小部分列
可以看出,OLAP用况很吻合列存数据库,
既避开了列存的细粒度写性能的劣势,
又发挥了读少数列时节省IO、不需要读无用列的优点。
列存将相似数据紧密排列,对内存、CPU和磁盘都很友好,
这篇笔记的主要关注在(单机下的)列存数据在内存和CPU的处理,
磁盘上的存储布局也是一个较大的话题,会放到另一篇笔记。
# 列存数据的SIMD优化
数据的运算在CPU上进行,
CPU的数据吞吐量(Throughput)越大,计算就越快,数据分析也就越快。
CPU性能 = 每周期执行指令数(IPC,Instructions Per Cycle)× 频率
硬件本身决定了IPC上限和频率。
90年代,Intel等CPU厂商设计了MMX、SSE等单指令多数据(SIMD)的指令集,
顾名思义,就是一条指令处理一批数据,提高计算能力。
时至如今,SIMD仍是最重要的优化手段之一。
对于列式存放的数据,在内存里紧密排列、大小相同,
可以很容易地进行SIMD处理,批量地加载进CPU,由一次CPU指令处理完。
这就在不变的硬件条件下,成倍地提高了数据吞吐量。
紧密数组的遍历处理,对CPU流水线很友好,
即使在代码中没有特殊作SIMD处理,
编译器也可以使用loop-pipelining等手段进行优化,达到更高效率。
# 列存数据压缩
在CPU数据吞吐量固定的情况下,数据压缩是提升处理速度有效途径。
常见的压缩算法如lz77、lz78家族,对数据都做了变形处理,
然后在一个较大(k级)的数据窗口中寻找相同的数据达成压缩。
这类压缩的结果与原始数据相去甚远,进行计算之前需要解压,
我们称为通用压缩或者重型压缩(Generic Compression/Heavy Compression)
这类压缩的特点是压缩率高,压缩慢,解压较快,消耗CPU资源较多。
列存数据由于相邻数据相似度非常高,
可以进行针对数据特征的轻量压缩(Lightweight Compression)
并可以直接对压缩处理进行计算。
轻量压缩消耗CPU资源极少,压缩比普遍在1/3-1/4,
理想情况下,可以提升对应倍数的吞吐量。
# 轻量压缩的算法框架
###### 轻量压缩算法有很多种,常用的有:
- 前缀压缩(Prefix Suppression):
- 位向量编码(Bit-Vector Encoding)
- 字典编码(Dictionary Ecoding)
- 参照系编码(FOR,Frame of Reference Encoding)
- 差异编码(Defferential Encoding/PFOR-DELTA)
###### 下面简单列一下各个算法的要点。
- 前缀压缩(Prefix Suppression):
消除相同前缀,常用状况:列中大部分都是小值,但最大值较大
- 位向量编码(Bit-Vector Encoding):
列中大多数值都相同,比如性别,以1个bit来表达。
编码后数据还可以再次压缩。
- 字典编码(Dictionary Ecoding):
适用于唯一值(Distinct Values)数量较少的情况,例如季度、国家
预提取预存字典的KV对,数据里存K。
压缩后数据长度为log 2(|D|) bits,D是唯一值数量
- 参照系编码(FOR,Frame of Reference Encoding):
选择参照值,每个数据只存与参照值的差值,
压缩后每值占log 2(max − min + 1) bits
变种FOR: 选择可以小于0的参照值,使的每个值都为正数。
- 差异编码(Defferential Encoding/PFOR-DELTA):
和参照系编码类似,使用前一个值作为参照值
对于递增递减的数据性能良好。
例如时间戳、递增ID、有序数组
- 行程编码(Run-Length Encoding,RLE):
将一串连续的相同数据转化为特定的格式
例如:aaabbc,表示为:3个a,2个b,1个c,压缩数据3a2b1c
RLE是很基础的压缩方式,通用压缩算法中也很多它的影子,
但通用压缩中经常结合多种算法,例如使用BWT可逆变换提高重复率。
作为原始的、没有经过数据变形的RLE,更利于在压缩数据上进行计算。
###### 这些算法都可以在同一个算法框架下工作:
- 找到数据特征,大部分数据都应该符合该特征
- 对数据逐个进行编码,达成压缩,不同的压缩算法采用不同的编码方式
- 如果碰到不符合特征的数据,按异常值(Exception Values)处理
- 异常值的处理方式:编码为“跳出码(Escape Code)+ 原始数据”
- 跳出码与正常值长度相等,其值为正常值不可能的值。所对应的原始数据可以另外存放
用伪码来表示编码过程:
```c
for i = j = 0; i < n; i++:
if in[i] < MAXCODE:
out[i] = CODE(in[i])
else:
out[i] = MAXCODE
exception[j++]) = out[i]```
解码为逆过程:
```c
for i = j = 0; i < n; i++:
if in[i] < MAXCODE:
out[i] = DECODE(in[i])
else:
out[i] = exception[j++])```
有两个事情值得注意:
1,exception的数据比例对性能的影响。
2,if-else分支引发的指令预测失败,IPC(Instructions Per Cycle)下降的问题。
Marcin Zukowski在引文中测试了不同压缩算法、不同exception比例下的性能,
并且尝试使用两轮循环避免if-else分支,有兴趣可以看看。
在实践中,不同的数据列可以根据特征和需求来决定压缩策略,
工程师们提出过不少策略,以下是其中一种决策树:
该列有排序查询的需求吗
Y => 平均重复行程(Average Run-Length)> 2吗
Y => RLE压缩
N => 差异编码
N => 唯一值(Distinct Values)数量 < 50000吗
Y => 该列经常出现在选择谓词(即SQL where子语句)中吗
Y => 位向量编码
N => 字典编码
N => 是有局部性(某范围值较多)的数字类型吗
Y => 参照系编码
N => 不压缩或者重型压缩
在实际开发中,列数据一般被分成多个等大Block,
每个Block可以有自己的元数据(例如参照值),也可以引用别的Block的,
甚至可以再次对特征采样,选择不同的压缩策略。
可见落地过程中的优化空间还是很大的,需要结合实际数据测量效率。
# 对于压缩数据的计算
轻量压缩的结果与原始数据成一一映射的关系,
几乎所有的算术运算都可以直接在压缩结果上计算。
举例,原始数据[102, 101, 104],使用FOR编码,以100为参考值编码为[2, 1, 4],
那么(if > 101)的运算就被改写为(if > 1),可以直接在编码后数据上计算。
即使我们不使用改写计算的方法来处理数据,
而是使用解压后计算的常规方式,上述的轻量压缩仍旧可以带来巨大好处:
我们知道,RAM对比CPU来说是很慢的。
下表是数据在各个设备上存取数据的大概耗时比例,单位是时钟周期Cycle:
L1-CACHE 4
L2-CACHE 11
L3-CACHE 18
RAM 160```
计算过程:
- 压缩数据从RAM进入CACHE
- 送入CPU解压
- 进行业务运算
- 再压缩,结果留在CACHE
- 写回RAM
可见最耗时的两次IO:RAM-CACHE/CACHE-RAM,传输的都是压缩数据,
该技术被称为RAM-CPU CACHE Compression,
有效减少了RAM-CPU交换,增加了吞吐量。
以上涉及的都是列数据的通用的计算优化,
对于其在关系代数运算(查询)中的优化,
也是一个较大的话题,需要另外的篇幅来叙述。
主要参考资料
以下论文可以在各大学术库下载
- “Query Execution in Column-Oriented Database Systems” Daniel Abadi SIGMOD’09
- “Super-Scalar RAM-CPU Cache Compression” Zukowski, Heman, Nes, Boncz, ICDE’06
- “Weaving relations for cache performance” Ailamaki, DeWitt, Hill, and Skounakis. VLDB’01
- “Integrating Compression and Execution in Column-Oriented Database Systems” Abadi, SIGMOD’06
- “MonetDB/X100: Hyper-Pipelining Query Execution” Peter Boncz, CIDR’05