上一篇 给初心者的数据仓库元数据系统开发指南 主要是描述了元数据的基本概念和典型需求。实际的开发和使用中,还有个基本问题容易被混淆,关于元数据的产品形态。 元数据门户 这是最...
上一篇 给初心者的数据仓库元数据系统开发指南 主要是描述了元数据的基本概念和典型需求。实际的开发和使用中,还有个基本问题容易被混淆,关于元数据的产品形态。 元数据门户 这是最...
加过一些数据开发的社群,经常会有人问元数据系统怎么开发,大概网上很难搜到相关的好文章。 什么是元数据 首先,元数据的概念,通常解释为数据的数据,这个太难看懂了,需要换个角度解...
今天团队在讨论过去一段时间的问题,有提到这么一个观点:作为数据仓库工程师,被动接了很多需求,数据的业务价值不明显。 互联网公司的业务变化快,经常会有产品上线或旧业务变更,这是...
如果是orc格式,用presto执行这些简单查询,其实就是读取文件的元数据。如果直接基于orc或parquet元数据,实现成本还是有点高的
Hive表数据质量校验的设计与开发一张Hive计算完成后,开发者会希望知道计算结果是否符合预期,比如是否有脏数据,是否数据量符合预期。这里就有两个问题,一个是校验什么,另一个是怎么校验。 校验什么 单个字段校...
都说互联网公司快,在大数据开发领域也是如此,数据仓库的各ETL任务每天都有更新,而源头的数据也是在不断变化,需要保证快速更变的同时,保证系统稳定。 上一篇 Hive表数据质量...
数据仓库的元数据系统需要实时获取最新的Hive表结构,比如用户新建了一张表或新加一个字段,希望能马上在元数据系统里查询到。 实时获取数据,无非是Push或Pull两种模式。考...
一张Hive计算完成后,开发者会希望知道计算结果是否符合预期,比如是否有脏数据,是否数据量符合预期。这里就有两个问题,一个是校验什么,另一个是怎么校验。 校验什么 单个字段校...
失信人,也就是俗称的老赖,会认为是高风险或者低信用的用户,在很多业务场景下需要做好监控或行为限制。比如失信人卖货,捐款跑路的风险比普通人高,又比如失信人分期付款,可以怀疑不能...
敏感字段标注问题 数据仓库里,多多少少会有一些敏感字段,比如用户手机号、通信地址,一旦泄露危害很大。而数据仓库需要尽可能方便让用户使用,同时又要保护敏感字段不能随意访问,一方...