clickhouse之distributed配置及使用

概述

不同于replicated模式,distributed有shard的概念,即一张表的完整数据并不存放在一个物理节点上,而是分布在多个不同的物理节点。Distributed引擎本身不存储数据,不过它支持在多台server上进行分布式的,并行的查询。比如一张distributed表有3个shard,分布在3个不同的server上面,当查询请求发到其中一台server(server1)的时候,该server会同时向其他两台server(server2和server3)发送数据请求,另外两台server处理完数据以后会将结果返回server1,在server1再进行处理后将最终结果返回客户端。

配置

clickhouse有几种写配置的方式,一种是直接在/etc/clickhouse-server/config.xml里面写,另一种是手动创建/etc/metrika.xml文件,这样原config.xml中带有incl属性的element会被相关联的value替换掉。还有一种配置方式是在element中加"from_zk="/path/to/node""属性,将xml配置存放在zookeeper中。zookeeper中的xml会成为config.xml中element的子内容。

下面采用的是在默认配置文件/etc/clickhouse-server/config.xml进行配置的方式。

1.同replicated模式,zookeeper是必须配置的

2.配置remote-servers列表,

<remote_servers>
        <test_2shard_2replica>
            <shard>
                <weight>1</weight>
                <internal_replication>true</internal_replication>
                <replica>
                    <host>172.18.164.98</host>
                    <port>9000</port>
                    <user>default</user>
                    <password>compass</password>
                </replica>
                <replica>
                    <host>172.18.171.101</host>
                    <port>9000</port>
                </replica>
            </shard>
            <shard>
                <weight>1</weight>
                <internal_replication>true</internal_replication>
                <replica>
                    <host>172.18.171.101</host>
                    <port>9000</port>
                </replica>
                <replica>
                    <host>172.18.164.98</host>
                    <port>9000</port>
                    <user>default</user>
                    <password>compass</password>
                </replica>
            </shard>
        </test_2shard_2replica>
    </remote_servers>

标签说明:
-<test_2shard_2replica>:cluster名称,该标签的名字可以自定义,只需符合xml标签命名规则即可。该标签名字会在创建distributed引擎表的时被引用
-<shard>:有多少并列的<shard>标签,就意味着一张distributed表有多少分片
-<weight>1</weight>:分片权重标签,默认值为1,引擎会根据这个值分发不同的数据量到shard上。比如,有两个分片,其中一个分片<weight>设置为4,另外一个分片<weight>设置为5,则4/(4+5) = 4/9的数据会被分发到第一个分片,另一个分片会被分配5/9的数据
-<internal_replication>:当local表使用replicated引擎时,该标签的值设置为true,往distributed表中写数时,会数据写在其中一个健康的replica中,然后各个replica之间通过zookeeper自动同步数据。其余情况设置成false,数据会往所有replica中写,这种情况下replica之间的数据没有进行一致性校验,假以时日不同replica之间的数据可能会有微小的差异。默认被设置为false
-<replica>:副本标签,其中<host>表示server的地址,<port>是tcp通信端口,一般是9000,如果目标服务器设置了用户名和密码,还需要配置<user>标签和<password>标签,通过system.clusters表可以查看server上的分布式配置信息

定义distributed表

1.首先在不同的分片server上创建本地表,示例:

CREATE TABLE IF NOT EXISTS default.customer_shop_local (shop_id UInt64, pin String, score Float64, sex String, age String, marital_status String, region String, pay_mode String, purchase_power String, commet_sensitive String, user_level String, promotion_sensitive String, type UInt8, date Date) ENGINE = MergeTree(date, (shop_id, pin, type), 2048);

2.然后在根据需求在server上创建distributed表(比如有3台分片server,只在一台server上创建了distributed表,则只有这台server可以提供该distributed表的服务,如果所有server都创建了distributed表,那么3台都可以提供服务)。

Distributed引擎创建template:Distributed(cluster, datebase, local_table[, sharding_key]),

其中:
-cluster需要写成在config里自定义的cluster名称
-database是分片数据库的名称
-local_table是分片本地表的名称
-最后一项sharding_key是选填的,可以是一个表达式,例如rand(),也可以是某列 如user_id,不过该列必须是integer类型,通过对该具体的值进行取余进行分片,如果担心这样没法均匀的进行分片,也可以加上hash函数,如intHash64(user_id)
示例:

CREATE TABLE IF NOT EXISTS customer_shop_all AS customer_shop_local ENGINE = Distributed(test_2shard_2replica, default, customer_shop_local, rand())
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,734评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,931评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,133评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,532评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,585评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,462评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,262评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,153评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,587评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,792评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,919评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,635评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,237评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,855评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,983评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,048评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,864评论 2 354

推荐阅读更多精彩内容

  • Clickhouse-copier 是一个将数据从某个clickhouse环境迁至另一个clickhouse环境的...
    金科_阅读 7,113评论 6 4
  • 简介 通常生产环境我们会用集群代替单机,主要是解决两个问题: 效率 稳定 如何提升效率?一个大大大任务,让一个人干...
    user0650阅读 28,187评论 35 71
  • ClickHouse在集群中的数据分布是非常灵活的,例如可以将不同的拓扑结合在一个集群中,使用共享配置等管理多个逻...
    金科_阅读 15,922评论 1 6
  • 什么是分发引擎? 分发引擎在业务用来建立all表时使用。 all表的概念可以理解为一个视图。 在all表上读数据时...
    金科_阅读 9,087评论 0 4
  • Clickhouse是一个用于联机分析处理(OLAP)的列式数据库管理系统(columnar DBMS)。传统数据...
    darebeat阅读 139,688评论 11 66