- 应用场景
常用场景是将数据引接到数仓,对数据质量进行检查。 - 主要功能
(1)数据质量检查规则
提供质量规则:空值检查、重复值检查、值域检查、规范检查、波动检查、离群值检查、完整性检查、逻辑检查、自定义检查等。
(2)数据质量检查模板配置
针对数据集,根据提供的质量规则列表,选择检查项,配置针对检查项的检查参数,生成质量检查模板。
(3)数据质量检查调度
配置调度参数,定时执行数据质量检查任务。
(4)数据质量检查报告
执行质量检查任务,生成质量检查报告,提供报告下载功能。 - 技术实现
(1)质量检查规则实现
(2)执行引擎
Sql、Python。SparkSql。
(3)数据库
(4)定时调度
定时调度引擎。
参考:
[Apache Griffin]
[Openrfine]
按表配置监控规则
内置模板规则
Profiling Use Case
内置模板规则
数据质量检查工具
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
推荐阅读更多精彩内容
- 1 概述 SonarQube(sonar)是一个开源平台,用于管理源代码的质量。 SonarQube不只是一个质量...
- 概述数据质量模块是大数据平台中必不可少的一个功能组件,Apache Griffin[http://griffin....
- OpenRefine提供数据集治理功能,它很擅长数据的探索、清理、转换等,主要功能介绍如下。 转换数据 Op...
- 当前越来越多的企业认识到了数据的重要性,数据仓库、大数据平台的建设如雨后春笋。但数据是一把双刃剑,它能给企业带来业...