Apache Kylin入门必读:怎么创建一个好Cube?

作者|张逸凡

编辑| Sammi

对Apache Kylin的用户而言,如何设计并构建满足业务分析场景的Cube,是使用Kylin的基本要求。KyBot作为在线诊断、优化及服务的平台,通过分析整合Kylin的日志等信息,为用户提供可视化仪表盘、系统优化、故障排查、技术支持等服务,大大降低了Kylin的维护成本。

本文将介绍KyBot的评分系统,帮助用户调优出一个建立高效可用的Kylin Cube

Cube是OLAP系统用于数据索引、预计算的关键概念。对Apache Kylin的用户而言,如何设计并构建满足业务分析场景的Cube,是使用Kylin的基本要求。随着业务场景和数据特征的演变,用户可能发现最初设计的Cube在查询性能方面开始降低;或者在一些建模场景下,由于复杂查询业务的需要,使得Cube的膨胀率变得很大,而这些问题,都可以通过对Cube调优来解决。

对Kylin进行深度调优,不仅需要对Kylin的运行机制有深入的了解,更需要多种系统运行状态统计特征配合分析Cuboid和RowKey的使用情况,从历史查询模式中找到系统的瓶颈和优化的方向。Kyligence公司为解决Kylin的有效运维问题,设计了KyBot在线服务,提供了相关分析工具,这些工具将极大简化上述问题。KyBot作为在线诊断、优化及服务的平台,通过分析整合Kylin的日志等信息,为用户提供可视化仪表盘、系统优化、故障排查、技术支持等服务,大大降低了Kylin的维护成本。

本文将介绍KyBot的评分系统,帮助用户调优出一个建立高效可用的Kylin Cube。

进入KyBot的Cube调优页面,首先是Cube诊断报告,评分栏中的5维雷达图及各个评分项为Cube健康度给出了打分, 通常来说分数越高,Cube越“健康”。

如图所示,五个维指标分别对应为:

查询性能:评价当前Cube的查询效率,用户需求的重要参考因素之一,主要因子为查询时间中间数等。

使用率:评价当前Cube的访问热度,基于用户的查询行为统计,主要因子为访问此Cube 的查询占总查询访问数量的比重。

膨胀倍数:评价当前Cube的膨胀率,存储和构建方面需要关注的因素,主要因子为Cube数据存储空间。

构建性能:评价Cube的构建时间,也从侧面体现了设计的合理性,有时构建时间过长也是用户的痛点之一。

模型设计:评价使用角度下的Cube设计,结合查询使用记录的综合指标,主要因子为Row Key使用情况、Cuboid重合率,Cuboid匹配率等指标。

例如,图中的Cube“模型设计”得分较低,同时下方也提供了优化建议来提醒用户“模型设计:  Cube设计不合理,会对构建和查询都造成影响,建议进行调优”。这样我们便从前文介绍的影响因素入手。

我们在Cube详细页面中浏览层级信息,展开查看Cuboid树下第一层级的8个子结点,发现有6个结点的重合率超过了98%,比如第一个Cuboid (id=7679,二进制表达为“1 1101 1111 1111”),和父节点相差YYYY和YYYYMM两列,但重合率达98%,且行数超过了1千万条。 这样的结果便是Cube的膨胀率偏高,同时查询效率也会偏慢。

通过查看各个维度的详细信息, 不难发现,该Cuboid排除的维度基数非常的低,YYYY和YYYYMM两列虽然已是层级维度,但两个维度的基数都很低,即使设成层级维度也会带来很大的Cuboid重合度。

同样的情况也出现在CATA1_ID和CATA2_ID组合中,这里可以考虑将他们(YYYY, YYYYMM, CATA1_ID和CATA2_ID)合并为一个联合维度。

还有多个低基数列(LOCATION, TYPE和PIPE_ID)也有重合率高的问题,且没有也没有任何聚合组设置,同样地,也应进行联合维度合并。

这样在大大减少Cube复杂度(28=>25)的前提下,有效地降低重合率,同时每个Cuboid本身也不会变得太臃肿,保证了查询性能。

同时,还有一个高基数列WORKER_ID被作为了必要维度,导致所有Cuboid都很大,可能造成不包含这一维度的查询性能较差,所以设置必要维度时必须要谨慎。

基于以上发现,我们就能很快地找到影响评价的原因。

那么是否每个cube的调优目标就是将评分雷达图上的5维提高作为最终目标呢。其实不然,首先,每个因素看似独立,但是实际上相互影响着,比如提高查询效率可能伴随着构建Cube成本的提高。

优化的目的也是取决于用户真正的需求,比如上文中的必要维度设置会对部分查询性能有影响,在用户的查询需求中很少遇到这些查询 ,而且最需要的诉求是降低膨胀率,大可以保留这个必要维度。Cube优化的策略应该随实际需求倾斜,比如在Cube构建速度可以接受的情况下,希望更多地提高查询效率,相应地以稍高的膨胀率为代价有时也能被接受。

反过来说,即使是“满分”的Cube,也并不是表示优化已经到了极致,打分项也均为参考值,高分项也只是说明目前优化的余地相对少一些,如果仍然有调整的需求,继续优化也是可行的。

Cube的评分虽然会随业务发展而变动,而Cube调优就是不断保证Cube性能的有效手段。真正完美的Cube并不存在,设置该评分系统也是为了给用户提供直观的优化建议和参考思路。

作者:

Yifan Zhang(张逸凡)高级软件工程师@Kyligence,专注于大数据平台,物联网和实时数据分析。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,794评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,050评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,587评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,861评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,901评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,898评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,832评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,617评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,077评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,349评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,483评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,199评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,824评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,442评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,632评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,474评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,393评论 2 352

推荐阅读更多精彩内容