spearman秩相关系数 pearson线性相关系数要求连续变量的取值服从正态分布。不服从正态分布的变量、分类或等级变量之间的关联性可采用spearman秩相关系数。 只要...
对于定性变量,常常根据变量的分类类型来分组,可以采用饼图和条形图来描述定性变量的分布。 3.2.2对比分析 (1)绝对数比较 (2)相对数比较 1)结构相对数:将同一总体内的...
一、数据质量分析 脏数据: 缺失值 异常值 不一致的值 重要数据含有特殊符号的数据 1.异常值分析 (1)简单统计量分析,最常用的统计量是最大值和最小值,用来判断这个变量是否...
数据应用 生意参谋 数据产品的本质是产品,那么首先要回答用户是谁,用户的痛点是什么,产品要解决用户的哪些痛点,及产品给用户带来的价值是什么。对于企业内部数据产品,它的用户是公...
数据质量 15.1数据质量保障原则 1.完整性 完整性是指数据的记录和信息是否完整,是否存在缺失的情况。 2.准确性 准确性是指数据种记录的信息和数据是否准确,是否存在异常或...
存储和成本管理 14.1数据压缩 在分布式文件系统中,为了提高数据的可用性与性能,通常会将数据存储3分,这就意味着存储1TB的逻辑数据,实际上会占用3TB的物理空间。 arc...
优化器新特性 优化器具有一些新特性,主要是重新排序join和自动mapjoin。 (1)重新排序join (2)自动mapjoin (3)隐式类型转换 任务优化 join倾斜
数据管理 元数据是关于数据的数据 元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。 元数据主要记录数据仓库中模型的定义,各层级间的映射关系、监控数据仓...
退化维度 在大数据的事实表模型设计中,更多的是考虑提高下游用户的使用效率,降低数据获取的复杂性,减少关联的表数量。 特点 1.数据不断更新 2.多业务过程日期 特殊处理 1....
父子事实的处理方式 事实的设计准则 1.事实完整性 2.事实一致性 3.事实可加性 周期快照事实表 在确定的间隔内对实体的度量进行抽样,这样可以很容易地研究实体的度量值,而不...
多事务事实表 多事务事实表,将不同的事实放到同一个事实表中,即同一个事实表包含不同的业务过程。 多事务事实表在设计时有两种方法进行事实的处理:1.不同业务过程的事实使用不同的...
任务描述 kaggle 案例 california-housing-priceshttps://www.kaggle.com/camnugent/california-hou...
事实表设计方法 维度模型设计采用四步设计方法:选择业务过程、声明粒度、确定事实。 第一步:选择业务过程及确定事实表类型 第二步:声明粒度 第三步:确定维度 第四步:确定事实 ...
事实表有三种类型:事务事实表、周期快照事实表和累积快照事实表。 事务事实表用来描述业务过程,跟踪空间或时间上某点的度量事件,保存的是最原子的数据,也称为“原子事实表”。周期快...
极限存储 1.透明化 底层的数据还是历史拉链存储,但是上层做一个视图操作或者在HIVE里做一个hook,通过分析语句的语法树,把对极限存储前的表的查询转换成对极限存储表的查询...
一、模型设计基本原则 1.高内聚和低耦合 将业务相近或者相关、粒度相同的数据设计为一个逻辑或者物理模型;将高概率同时访问的数据放在一起,将低概率同时访问的数据分开存储。 2....
大数据领域建模综述 性能:良好的数据模型能帮助我们快速查询所需要的数据,减少数据I/O吞吐。 成本:良好的数据模型能极大的减少不必要的数据冗余,也能实现计算结果复用,极大地降...
数据挖掘 挖掘数据中台分层: FDM层:用于存储在模型训练前常用的特征指标,并进行统一的清洗和去噪处理,提升机器学习特征工程环节的效率。 IDM层:个体挖掘指标中间层,面向个...