Clickhouse 基础使用教程

背景

小编最近在做一个数据类产品项目,每天涉及到几十亿数据的汇总计算,从不同维度、不同的关联关系进行汇总统计,刚开始时项目组使用的是hive,写好大量的业务SQL计算逻辑后(中间有一些其他程序处理脚本),每天通过定时任务来生成数据,然后把生成的数据推送到研发端的ES(Elasticsearch),研发端基于ES查询数据,给到前端来展示

但是,随着项目的不断深入,产品需求的快速迭代,之前的各种统计指标更新迭代,基于hive数据库的计算方式不能再满足当前快速迭代的场景。项目组经过调研,最终选择Clickhouse数据库,让研发来每天通过查询Clickhouse数据库,来统计生成各种统计指标,并把结果缓存至ES

项目数据架构的大概思路:

  • hive每日生成明细数据,把这些明细数据导入Clickhouse
  • 在Clickhouse中生成一些中间表,供研发人员查询数据使用,方便进行各种拼接组合
  • 研发人员每日基于明细表、中间表,计算统计指标,把结果缓存至ES

小编环境

操作系统版本 与 Clickhouse 版本

cat /etc/redhat-release
# CentOS Linux release 7.2.1511 (Core)

clickhouse -V
#ClickHouse local version 24.7.2.13 (official build)

登录客户端

clickhouse-client -u xxxx --password xxxxxx -m 

-u 或者 --user :指定用户名
--password :密码
-m 或者 --multiline :进入客户端后,运行输入多行sql语句

建表

在Clickhouse中,数据既可以存放到单个服务器节点,也可以把数据分散存放到集群中各个节点服务器中,这个需要看数据量大小,来选择合适的表类型

  1. 创建本地表
    如果数据量比较小的话,建议选择本地表,在数据查询时以提高性能,可以节省节点之间数据传输的时间,比如有几千万行数据的表,完全可以选择本地表,但是查询数据时,只能在当前服务器节点查询,其他服务器节点没有该表

下面以用户表为列,进行建表操作:

create table test.user_table (
uid String comment '用户id',
sex String comment '性别',
age UInt16 comment '年龄',
phone String comment '联系电话'
)
engine = MergeTree()
order by uid;
  • 数据类型需要注意是大写开头 ,StringUInt16,表引擎类型也必须大写 MergeTree
  • 如果没有指定主键的话,默认用 order by 指定的字段
  1. 创建分布式表
    分布式表在Clickhouse中,只是一个视图,不实际存放数据,指向实际存放数据的本地表,所以在创建分布式表时,需要在各个服务器节点创建名字一模一样的本地表
--在集群中创建实际存放数据的本地表
create table test.user_event on cluster data_cluster(
uid String comment '用户id',
event String comment '事件名称',
c_time DateTime comment '点击时间',
dt Date comment '日期'
)
engine = MergeTree()
partition by dt 
order by uid;

--创建分布式表
create table test.user_event_distributed (
uid String comment '用户id',
event String comment '事件名称',
c_time DateTime comment '点击时间',
dt Date comment '日期'
)
engine = Distributed('data_cluster', 'test', 'user_event', rand())
;

分布式表需要选择 Distributed 表引擎,其中
第1个参数:集群名称
第2个参数:数据库名
第3个参数:数据表名
第3个参数:分片key,数据被到不同服务器依据的字段,相同的值会被分配到同一台服务器

如果在创建分布式表 test.user_event_distributed 时没有指定 on cluster data_cluster,那么创建是本地表,后续的查询只能在建表的那个节点服务器查询数据,这里小编就创建的是一个本地表

查询

Clickhouse 的sql 查询语句和hive的比较类似,使用起来基本没啥差距,只有极个别的函数不支持,下面小编列举一下自己在使用时,遇到的个别函数:

  • 没有 nvl 函数,需要用 coalesce 代替
  • 支持窗口函数,row_number
  • 没有 concat_ws,需要用 arrayStringConcat 代替
  • 没有 collect_list,需要用 groupArray 代替
  • 一个好用的函数,arrayZip,类似python中的zip
  • 没有 split 函数,需要用 splitByString 代替
  • arrayMaparraySumarraySlice 等函数很好用,性能高

表变更

  • 删除特定分区
alter table test.user_event on cluster data_cluster drop partition '2024-11-30';
alter table test.user_event on cluster data_cluster delete where dt > '2024-11-15';
alter table test.user_event on cluster data_cluster delete where dt='2024-11-30';
  • 删除满足特定条件数据
alter table test.user_event on cluster data_cluster delete where user_id='u00001';

自定义函数

不推荐使用外部语言编写自定义函数,例如:java、python 等,推荐使用自有的函数,逐步组合实现自定义函数,性能高

一个样例:

--分割字符串并把类型转换为整数
create function x_split as (x) ->
(
    arrayMap(
            y -> toUInt32(y), 
            splitByString(',', x)
        )
);

历史相关文章


以上是自己实践中遇到的一些问题,分享出来供大家参考学习,欢迎关注微信公众号:DataShare ,不定期分享干货

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,063评论 6 510
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,805评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,403评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,110评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,130评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,877评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,533评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,429评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,947评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,078评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,204评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,894评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,546评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,086评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,195评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,519评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,198评论 2 357

推荐阅读更多精彩内容