clickhouse之distributed配置及使用

概述

不同于replicated模式，distributed有shard的概念，即一张表的完整数据并不存放在一个物理节点上，而是分布在多个不同的物理节点。Distributed引擎本身不存储数据，不过它支持在多台server上进行分布式的，并行的查询。比如一张distributed表有3个shard，分布在3个不同的server上面，当查询请求发到其中一台server（server1）的时候，该server会同时向其他两台server（server2和server3）发送数据请求，另外两台server处理完数据以后会将结果返回server1，在server1再进行处理后将最终结果返回客户端。

配置

clickhouse有几种写配置的方式，一种是直接在/etc/clickhouse-server/config.xml里面写，另一种是手动创建/etc/metrika.xml文件，这样原config.xml中带有incl属性的element会被相关联的value替换掉。还有一种配置方式是在element中加"from_zk="/path/to/node""属性，将xml配置存放在zookeeper中。zookeeper中的xml会成为config.xml中element的子内容。

下面采用的是在默认配置文件/etc/clickhouse-server/config.xml进行配置的方式。

1.同replicated模式，zookeeper是必须配置的

2.配置remote-servers列表，

<remote_servers>
        <test_2shard_2replica>
            <shard>
                <weight>1</weight>
                <internal_replication>true</internal_replication>
                <replica>
                    <host>172.18.164.98</host>
                    <port>9000</port>
                    <user>default</user>
                    <password>compass</password>
                </replica>
                <replica>
                    <host>172.18.171.101</host>
                    <port>9000</port>
                </replica>
            </shard>
            <shard>
                <weight>1</weight>
                <internal_replication>true</internal_replication>
                <replica>
                    <host>172.18.171.101</host>
                    <port>9000</port>
                </replica>
                <replica>
                    <host>172.18.164.98</host>
                    <port>9000</port>
                    <user>default</user>
                    <password>compass</password>
                </replica>
            </shard>
        </test_2shard_2replica>
    </remote_servers>

标签说明：
-<test_2shard_2replica>：cluster名称，该标签的名字可以自定义，只需符合xml标签命名规则即可。该标签名字会在创建distributed引擎表的时被引用
-<shard>：有多少并列的<shard>标签，就意味着一张distributed表有多少分片
-<weight>1</weight>：分片权重标签，默认值为1，引擎会根据这个值分发不同的数据量到shard上。比如，有两个分片，其中一个分片<weight>设置为4，另外一个分片<weight>设置为5，则4/(4+5) = 4/9的数据会被分发到第一个分片，另一个分片会被分配5/9的数据
-<internal_replication>：当local表使用replicated引擎时，该标签的值设置为true，往distributed表中写数时，会数据写在其中一个健康的replica中，然后各个replica之间通过zookeeper自动同步数据。其余情况设置成false，数据会往所有replica中写，这种情况下replica之间的数据没有进行一致性校验，假以时日不同replica之间的数据可能会有微小的差异。默认被设置为false
-<replica>：副本标签，其中<host>表示server的地址，<port>是tcp通信端口，一般是9000，如果目标服务器设置了用户名和密码，还需要配置<user>标签和<password>标签，通过system.clusters表可以查看server上的分布式配置信息

定义distributed表

1.首先在不同的分片server上创建本地表，示例：

CREATE TABLE IF NOT EXISTS default.customer_shop_local (shop_id UInt64, pin String, score Float64, sex String, age String, marital_status String, region String, pay_mode String, purchase_power String, commet_sensitive String, user_level String, promotion_sensitive String, type UInt8, date Date) ENGINE = MergeTree(date, (shop_id, pin, type), 2048);

2.然后在根据需求在server上创建distributed表（比如有3台分片server，只在一台server上创建了distributed表，则只有这台server可以提供该distributed表的服务，如果所有server都创建了distributed表，那么3台都可以提供服务）。

Distributed引擎创建template：Distributed(cluster, datebase, local_table[, sharding_key])，

其中：
-cluster需要写成在config里自定义的cluster名称
-database是分片数据库的名称
-local_table是分片本地表的名称
-最后一项sharding_key是选填的，可以是一个表达式，例如rand()，也可以是某列如user_id，不过该列必须是integer类型，通过对该具体的值进行取余进行分片，如果担心这样没法均匀的进行分片，也可以加上hash函数，如intHash64(user_id)
示例：

CREATE TABLE IF NOT EXISTS customer_shop_all AS customer_shop_local ENGINE = Distributed(test_2shard_2replica, default, customer_shop_local, rand())

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,734评论 6赞 505
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,931评论 3赞 394
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,133评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,532评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,585评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,462评论 1赞 302
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,262评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,153评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,587评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,792评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,919评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,635评论 5赞 345
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,237评论 3赞 329
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,855评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,983评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,048评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,864评论 2赞 354

clickhouse之distributed配置及使用

概述

配置

定义distributed表

推荐阅读更多精彩内容