2、维度、度量、事实表、维度表、立方体cube

维度通常是一个数据记录的属性,度量是某一个维度根据特定聚合函数生成的值;group by 的属性通常就是维度,计算的值则是度量。

事实表:存储有事实记录的表,如系统日志、销售记录等,事实表的记录会不断增长。

维度表:也称查找表,是与事实表相对应的一种表;保存了维度属性值,跟事实表做关联。是对事实表上重复出现的属性抽取、规范出来用一张表进行管理。如地区、月度、年度等。

data cube:数据立方体,原始数据建立的多维度索引,可以大大加快数据的查询效率。

cuboid:某一种维度组合下所计算的数据。

cubsegment:针对源数据中的某一个片段,计算出来的cube数据,cube是按照时间顺序来构建的。

    大数据事实表按照时间梯度的增量计算生成的cube,就是cubesegment,过多的segment会影响后期查询性能,需要进行合并。


维度表设计

1、数据一致性,主键唯一性,kylin会检查,如果不唯一,会报错。

2、维度表越小越好,因为kylin会放在内存中,默认的阈值是300mb

3、改变频率低,kylin会在每次构建中试图重用维度表的快照,如果维度表经常改变,重用会失效。

4、维度表最好不要是视图,因为需要对视图物化,从而增加时间开销。

维度基数:维度在数据集中出现的不通值,如国家这个维度,如果有200个不同的值,那么此维度的基数就是200。基数超过100w的维度通常被称为超高基数维度,需要注意。

如果一个cube的超高基数维度多,那这个cube膨胀的概率会很高。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 数据仓库概念汇总 目录 一、术语............................................
    起个什么呢称呢阅读 4,448评论 2 23
  • kylin是用于DW/BI的一种OLAP工具,满足多维环境下的特定查询。 术语 维度(Dimension)一组属性...
    hzrick阅读 9,201评论 6 9
  • 1. Apache Kylin 是什么? Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之...
    ZanderXu阅读 20,047评论 0 22
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 136,303评论 19 139
  • 项目初步规划: 对页面布局的巩固 页面设计 设计项目logo
    b66a0d292b52阅读 143评论 0 1

友情链接更多精彩内容