clickhouse之mergeTree

mergeTree

数据存储方式

数据库表在clickhouse中是分块存储(如果 partitioning key 存在则使用定义的键分块),每一块又分为文件存储,每一块的存储方式有2中wide和compact。
wide: 每一列存一个单独的文件
compact: 所有列都存在一个文件中。compact格式可以提高插入量少插入频率频繁时的性能。
存储方式由min_bytes_for_wide_part和min_rows_for_wide_part控制。如果这两个参数都未设置则,默认为wide。

每一块存储在逻辑上又拆分为颗粒。颗粒的配置参数为index_granularity 和index_granularity_bytes。

主键

  • 主键可以重复
  • 主键可以是多列的组合
  • 主键选择依据是该列上有查询条件,并且查询条件可过滤掉的数据量越大那么主键的索引效率就越高。因为使用主键排序,主键的一致性越高,压缩就越大。在 CollapsingMergeTree 和SummingMergeTree引擎中将排序字段作为主键可以提供额外的逻辑。
  • 主键越长会影响插入效率和内存使用。
  • 如果未指明主键,则使用sort by 的数据作为主键。

主键和排序键不同的意义

这经常发生在SummingMergeTree和AggregatingMergeTree中,因为过滤条件where和聚集条件group by很可能不一样。所以主键通过where条件选择,排序键根据group by选择。保证了插入和集合的效率。

索引选择

根据where或者prewhere条件匹配程度选择索引,包括in条件,前部分固定的like语句(不以%开头),主键,分区键,列的重复方法,以及上述条件的逻辑关系。
分区键即是作为分区查询的依据,也需要在主键中引入,不然在分区内部无法有效查询。

--ENGINE MergeTree() PARTITION BY toYYYYMM(EventDate) ORDER BY (CounterID, EventDate) SETTINGS index_granularity=8192
--不走所有
SELECT count() FROM table WHERE CounterID = 34 OR URL LIKE '%upyachka%'

部分单调主键。如1-30日在1个月中是单调函数,但在更长的期间不是。如果查询范围刚好在这个月那么clickhouse会使用这个索引,如果查询条件不包含单调序列区间,则进行全表扫描。

数据跳跃索引

-- 语法
INDEX index_name expr TYPE type(...) GRANULARITY granularity_value

--示例
CREATE TABLE table_name
(
    u64 UInt64,
    i32 Int32,
    s String,
    ...
    INDEX a (u64 * i32, s) TYPE minmax GRANULARITY 3,
    INDEX b (u64 * length(s)) TYPE set(1000) GRANULARITY 4
) ENGINE = MergeTree()
...;

--查询示例
SELECT count() FROM table WHERE s < 'z';
SELECT count() FROM table WHERE u64 * i32 == 10 AND u64 * length(s) >= 1234;

其中type
minmax: 和主键查询等效
set(max_rows)
ngrambf_v1(n, size_of_bloom_filter_in_bytes, number_of_hash_functions, random_seed)
tokenbf_v1(size_of_bloom_filter_in_bytes, number_of_hash_functions, random_seed)
bloom_filter([false_positive])
其中后三者使用bloom索引,可以优化 like '%test%'

mergetree

mergeTree Replication 作用
MergeTree ReplicatedMergeTree
ReplacingMergeTree ReplicatedReplacingMergeTree 数据合并阶段替代方式合并排序键相同的数据,用于保证存储空间,不保证数据不重复
SummingMergeTree ReplicatedSummingMergeTree 数据合并阶段合计方式合并排序键相同的数据,用于提高聚合效率
AggregatingMergeTree ReplicatedAggregatingMergeTree 数据合并阶段组合的聚合函数方式合并排序键相同的数据
CollapsingMergeTree ReplicatedCollapsingMergeTree 数据合并阶段折叠(抵消)方式合并排序键相同的数据,用于减少更新操作,clickhouse更新操作很昂贵(最初版本不支持更新)
VersionedCollapsingMergeTree ReplicatedVersionedCollapsingMergeTree 通过版本控制删除旧版本数据,比CollapsingMergeTree多了版本列
GraphiteMergeTree ReplicatedGraphiteMergeTree 存储监控工具graphite数据

只能在单独的服务器上运行的命令:CREATE, DROP, ATTACH, DETACH, RENAME
clickhouse 集群使用zookeeper
集群的时候建议插入频率每秒不超过一次
插入语句只等待1个服务的操作,单这个服务异常退出的时候,插入数据会丢失,保证多副本确认可使用insert_quorum

分区

数据插入是存在单独的分区,然后按分区键进行数据合并。合并是周期性进行了10-15分钟。还有非周期性执行命令OPTIMIZE,但不能依赖此命令(应该是异步的)。

--查询分区
SELECT
    partition,
    name,
    active
FROM system.parts
WHERE table = 'visits'

--立即优化
OPTIMIZE TABLE visits PARTITION 201902;

举例

summingMergeTree举例
CREATE TABLE summtt
(
    key UInt32,
    value UInt32
)
ENGINE = SummingMergeTree()
ORDER BY key;

INSERT INTO summtt Values(1,1),(1,2),(2,1);
INSERT INTO summtt Values(1,1),(1,2),(2,1);

SELECT * FROM summtt;

--执行结果如下
┌─key─┬─value─┐
│   1 │     1 │
│   1 │     2 │
│   2 │     1 │
└─────┴───────┘
┌─key─┬─value─┐
│   1 │     1 │
│   1 │     2 │
│   2 │     1 │
└─────┴───────┘

6 rows in set. Elapsed: 0.090 sec. 

optimize table summtt partition tuple();
SELECT * FROM summtt;
┌─key─┬─value─┐
│   1 │     6 │
│   2 │     2 │
└─────┴───────┘

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 225,448评论 6 524
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 96,648评论 3 406
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 172,816评论 0 370
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 61,288评论 1 304
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 70,294评论 6 401
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 53,739评论 1 316
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 42,076评论 3 431
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 41,071评论 0 280
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 47,632评论 1 327
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 39,637评论 3 347
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 41,755评论 1 355
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 37,344评论 5 351
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 43,069评论 3 341
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 33,487评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 34,646评论 1 277
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 50,342评论 3 384
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 46,813评论 2 367

推荐阅读更多精彩内容