ClickHouse MergeTree变得更像LSM Tree了?——Polymorphic Parts特性浅析

前言

笔者在之前的文章中已经提到过,MergeTree引擎族是ClickHouse强大功能的基础。MergeTree这个名词是在我们耳熟能详的LSM Tree之上做减法而来——去掉了MemTable和Log。也就是说,向MergeTree引擎族的表插入数据时,数据会不经过缓冲而直接写到磁盘。官方文档中有如下的描述:

MergeTree is not an LSM tree because it doesn’t contain "memtable" and "log": inserted data is written directly to the filesystem. This makes it suitable only to INSERT data in batches, not by individual row and not very frequently – about once per second is ok, but a thousand times a second is not. We did it this way for simplicity’s sake, and because we are already inserting data in batches in our applications.

但是在最近的ClickHouse新版本中,上述情况发生了巨大的改变。社区通过#8290#10697两个PR实现了名为Polymorphic Parts的特性,使得MergeTree引擎能够更好地处理频繁的小批量写入,但同时也标志着MergeTree的内核开始向真正的LSM Tree靠拢。本文就来介绍一下这个似乎并不引人注目的重要特性,采用的ClickHouse版本为20.6.4。

Wide/Compact Part Storage

先来创建一张测试表,并写入两批次数据。

CREATE TABLE test.test_event_log (
  event_time DateTime,
  user_id UInt64,
  event_type String,
  site_id UInt64
) ENGINE = MergeTree()
PARTITION BY toYYYYMMDD(event_time)
ORDER BY (user_id,site_id)
SETTINGS index_granularity = 8192;

INSERT INTO test.test_event_log VALUES
('2020-09-14 12:00:00',12345678,'appStart',16789),
('2020-09-14 12:00:01',12345679,'appStart',26789);
INSERT INTO test.test_event_log VALUES
('2020-09-14 13:00:00',22345678,'openGoodsDetail',16789),
('2020-09-14 13:00:01',22345679,'buyNow',26789);

利用tree命令观察该表的数据目录,可以发现形成了两个part目录,每个part目录中都存在每一列的数据文件(bin)和索引标记文件(mrk2),老生常谈了。

├── 20200914_1_1_0
│   ├── checksums.txt
│   ├── columns.txt
│   ├── count.txt
│   ├── event_time.bin
│   ├── event_time.mrk2
│   ├── event_type.bin
│   ├── event_type.mrk2
│   ├── minmax_event_time.idx
│   ├── partition.dat
│   ├── primary.idx
│   ├── site_id.bin
│   ├── site_id.mrk2
│   ├── user_id.bin
│   └── user_id.mrk2
├── 20200914_2_2_0
│   ├── ......

当写入特别频繁时,短时间内生成的part目录过多,后台的merger线程合并不过来,就会出现Too many parts的异常,所以官方才会建议不要执行超过一秒钟一次的写入操作。

下面修改表参数min_rows_for_wide_part,当然也可以在建表时的SETTINGS中指定。

ALTER TABLE test.test_event_log MODIFY SETTING min_rows_for_wide_part = 5;

然后再写入一批次2条数据(SQL就略去了),观察数据目录。

├── 20200914_3_3_0
│   ├── checksums.txt
│   ├── columns.txt
│   ├── count.txt
│   ├── data.bin
│   ├── data.mrk3
│   ├── minmax_event_time.idx
│   ├── partition.dat
│   └── primary.idx

可以发现,新生成的part目录中不再有每一列的bin和mrk2文件了,而是作为整体存储在一个文件中,即data.bin/mrk3。

重复实验可知,只有当写入批次中的数据行数达到或超过min_rows_for_wide_part规定的阈值时,part目录中的存储结构才会像之前一样“正常”,否则所有数据就会存储在data.bin/mrk3中。ClickHouse将每列数据分开存储的形式称为“Wide”(宽的),而将整体存储的形式称为“Compact”(压缩的),这也正是Polymorphic(多型的)一词的含义。

在system.parts系统表中,也增加了part_type列来描述part的存储形式。

SELECT partition,name,part_type,active FROM system.parts
WHERE table = 'test_event_log';

┌─partition─┬─name───────────┬─part_type─┬─active─┐
│ 20200914  │ 20200914_1_1_0 │ Wide      │      0 │
│ 20200914  │ 20200914_1_4_1 │ Wide      │      1 │
│ 20200914  │ 20200914_2_2_0 │ Wide      │      0 │
│ 20200914  │ 20200914_3_3_0 │ Compact   │      0 │
│ 20200914  │ 20200914_4_4_0 │ Compact   │      0 │
└───────────┴────────────────┴───────────┴────────┘

上面是已经发生过merge的parts信息,可以发现Wide part和Compact part是能够合并在一起的,且合并的结果part的存储形式仍然遵循min_rows_for_wide_part的阈值。

除了min_rows_for_wide_part参数之外,还有另外一个参数min_bytes_for_wide_part与它共同作用。顾名思义,它是part数据以Wide形式存储的大小阈值。当两个条件满足其一时,part数据就会以Wide形式存储。当然这两个参数默认都为0,表示禁用Compact存储。

min_bytes_for_wide_part参数已经应用在了会被频繁写入的系统日志表中,例如查询日志表system.query_log:

SHOW CREATE TABLE system.query_log\G

Row 1:
──────
statement: CREATE TABLE system.query_log
(
    `type` Enum8('QueryStart' = 1, 'QueryFinish' = 2, 'ExceptionBeforeStart' = 3, 'ExceptionWhileProcessing' = 4),
    `event_date` Date,
    `event_time` DateTime,
    -- 略去……
)
ENGINE = MergeTree
PARTITION BY toYYYYMM(event_date)
ORDER BY (event_date, event_time)
SETTINGS min_bytes_for_wide_part = '10M', index_granularity = 8192  -- 10MB的Wide part阈值

由于Compact存储形式大大减少了文件的数量,在生成大量小part时可以有效降低磁盘的iops,从而降低merge的压力。

In-Memory Part & Write-Ahead Log

到这里似乎还不能明显地看出MergeTree向LSM Tree靠拢的迹象,顶多是像LSM Tree一样更适合小批量写入而已。但是ClickHouse在实现Polymorphic Parts的同时,还把原版MergeTree中没有的预写日志(WAL)补了回来,而WAL的初衷正是为了防止内存中的MemTable丢失的,说明MergeTree引擎也引入了MemTable。下面进行介绍。

仍然用例子来说话,修改表参数min_rows_for_compact_part

ALTER TABLE test.test_event_log MODIFY SETTING min_rows_for_compact_part = 3;

插入一批次2条数据,可以看到并没有生成新的part目录,但是在表目录下生成了一个全局的wal.bin文件,即预写日志文件,说明刚才写入的数据存在了MemTable中。注意ClickHouse代码内并没有MemTable的概念,而是将其称为In-Memory parts。

├── 20200914_1_4_1
│   ├── ...
├── 20200915_5_5_0
├── ...
├── 20200915_7_7_0
│   ├── ...
├── detached
├── format_version.txt
└── wal.bin

用clickhouse-compressor工具看不到wal.bin具体的内容,只能作罢。

反复插入一两行的小批次数据,可以发现始终不会形成新的part目录,但wal.bin的大小在增长,说明这些数据都留在了内存中。如果此时执行OPTIMIZE语句触发merge(自动触发同理),就会发现生成了形如20200915_8_12_1的part,说明内存中的数据在merge的同时被flush到了磁盘——也就是说在启用了WAL的情况下,ClickHouse的flush是和merge一起进行的,而不是像一般的LSM Tree引擎一样是分别处理的。

├── 20200914_1_4_1
│   ├── ...
├── 20200915_8_12_1
│   ├── ...
├── detached
├── format_version.txt
└── wal.bin

min_rows_for_compact_part就是In-Memory part与Compact part之间的行数阈值,一次写入的数据行数大于此值,就会按照传统方式直接向磁盘flush形成Compact part(或者Wide part),不保存在内存中,也不会写WAL。反之,则会将数据保留成In-Memory part,并同时写入WAL,在下一次发生merge时再进行flush。同理,也存在min_bytes_for_compact_part参数,即In-Memory part与Compact part之间的大小阈值。这两个参数默认也都为0,表示禁用In-Memory part和WAL。

当然,WAL的大小也不是无限增长的,write_ahead_log_max_bytes参数用于限制wal.bin的大小,默认值为1G。上面的这三个参数目前是试验性的,在生产环境中仍然要谨慎使用。

In-Memory part和WAL的引入使得MergeTree的写入有了更强的缓冲,也更加趋近于LSM Tree-based引擎的机制。这也意味着在读取分区数据时,必须将In-Memory part和Wide/Compact part的数据进行合并,可能会牺牲读取性能,需要我们在之后的实践中评估其影响。

The End

通过上面的介绍,可以得知MergeTree的Polymorphic Parts实际上就是以写入优化为最终目的,借鉴LSM Tree的思想,将part的存储按照In-Memory→Compact→Wide的形式组织起来,弥补小批量写入性能不足的短板。不过照这样发展下去,ClickHouse有没有可能像Greenplum一样由OLAP引擎变成HTAP引擎呢?社区好像还没有这方面的roadmap,拭目以待吧。

民那晚安晚安。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,928评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,192评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,468评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,186评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,295评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,374评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,403评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,186评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,610评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,906评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,075评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,755评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,393评论 3 320
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,079评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,313评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,934评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,963评论 2 351