OLAP-ClickHouse应用场景分析

一、介绍

ClickHouse 是俄罗斯Yandex在2016年年开源的⼀一个⾼高性能分析型SQL数 据库,主要⾯面向OL

AP场景。开源之后,凭借优异的查询性能,受到业界的青睐。

优点:

1)为了高效的使用CPU,数据不仅仅按列存储,同时还按向量进行处理;

2)数据压缩空间大,减少io;处理单查询高吞吐量每台服务器每秒最多数十亿行;

3)索引非B树结构,不需要满足最左原则;只要过滤条件在索引列中包含即可;即使在使用的数据不在索引中,由于各种并行处理机制ClickHouse全表扫描的速度也很快;

4)写入速度非常快,50-200M/s,对于大量的数据更新非常适用;

ClickHouse并非万能的,正因为ClickHouse处理速度快,所以也是需要为“快”付出代价。选择ClickHouse需要有下面注意以下几点: 

1)不支持事务,不支持真正的删除/更新;

2)不支持高并发,官方建议qps为100,可以通过修改配置文件增加连接数,但是在服务器足够好的情况下;

3)sql满足日常使用80%以上的语法,join写法比较特殊;最新版已支持类似sql的join,但性能不好;

4)尽量做1000条以上批量的写入,避免逐行insert或小批量的insert,update,delete操作,因为ClickHouse底层会不断的做异步的数据合并,会影响查询性能,这个在做实时数据写入的时候要尽量避开;

5)Clickhouse快是因为采用了并行处理机制,即使一个查询,也会用服务器一半的cpu去执行,所以ClickHouse不能支持高并发的使用场景,默认单查询使用cpu核数为服务器核数的一半,安装时会自动识别服务器核数,可以通过配置文件修改该参数; 

二、性能对比


不同DB性能对比


单表性能测试


更多性能压测可以参考官网:http://www.clickhouse.com.cn/topic/5c453371389ad55f127768ea

同时对比了另一款OALP技术方案Druid

Druid的优点在于数据的预聚合、列式存储、Bitmap 索引、mmap、以及查询结果的中间缓存,数据实时摄入

ClickHouse相比于druid的优势在于,维度灵活,保存明细数据

三、架构设计

3.1 基于ClickHouse的OLAP 的实时&离线应用

3.1.1 数据摄入

ClickHouse覆盖如下两种场景:

实时:数据流可以通过kafka或者flink实时处理之后,通过JDBC方式批量导入到ClickHouse中离线:数据落地HDFS ODS层,离线通过Spark或MR的batch形式批量导入到ClickHouse中


离线&实时 Clickhouse数据分析场景

3.1.2 数据存储

存储上使用多磁盘结构,可以充分利用物理机多磁盘特性,增加存储量和磁盘IO吞吐,(同样可以进行磁盘的RAID操作,来增加吞吐)

ClickHouse可以通过配置文件的形式配置不同的存储Policy,可以将数据按照表维度进行完全的物理资源隔离

针对不同的业务和优先级进行表级别的抽象,这样的好处在于数据的摄入和查询不会相互影响,同时需要在不同的shard之前有路由层,突破单点数据导入瓶颈和路由不同的table查询到指定shard上


数据存储

3.1.3 数据扩容

Clickhouse在扩容方面也比较平滑,如下步骤即可完成扩容

1.安装新部署新的shard分片机器

2.批量修改当前集群的配置文件增加新的分片

3. 新shard上创建表结构

4. 名字服务添加节点

3.1.4 数据查询

数据有冷热之分,绝大多数OLAP场景需要查询最近一段时间的数据,(主要有:过去三天,过去一周,过去一个月等)

针对热数据,建议通过clickhouse来进行查询,保证查询速度,特点:数据量较小,查询速度快

针对冷数据,可以通过直接通过Spark/MR来直接查询HDFS数据,特点:数据量巨大,查询速度较慢


冷热数据查询策略

四、应用场景

使用ClickHouse作为OLAP服务的常见的应用场景包括:监控系统、ABtest、用户行为分析、BI报表,特征分析等


应用场景

1. 用户行为分析系统

行为分析系统的表可以打成一个大的宽表形式,join 的形式相对少一点,可以实现路径分析、漏斗分析、路径转化等功能

2. BI报表

结合clickhouse的实时查询功能,可以实时的做一些需要及时产出的灵活BI报表需求,包括并成功应用于留存分析、用户增长、广告营销等

3. 监控系统

视频播放质量、CDN质量,系统服务报错信息等指标,也可以接入ClickHouse,结合Kibana实现监控大盘功能

4. ABtest

其高效的存储性能以及丰富的数据聚合函数成为实验效果分析的不二选择。离线和实时整合后的用户命中的实验分组对应的行为日志数据最终都导入了clickhouse,用于计算用户对应实验的一些埋点指标数据(主要包括pv、uv)。

业界可以参考:https://www.jianshu.com/p/79d31a72978f(Athena-贝壳流量实验平台设计与实践)

5. 特征分析

使用Clickhouse针对大数据量的数据进行聚合计算来提取特征

场景举例:用户行为实时分析OLAP应用场景


用户行为分析服务架构方案
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,185评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,445评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,684评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,564评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,681评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,874评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,025评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,761评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,217评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,545评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,694评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,351评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,988评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,778评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,007评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,427评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,580评论 2 349

推荐阅读更多精彩内容