- 应用场景
常用场景是将数据引接到数仓,对数据质量进行检查。 - 主要功能
(1)数据质量检查规则
提供质量规则:空值检查、重复值检查、值域检查、规范检查、波动检查、离群值检查、完整性检查、逻辑检查、自定义检查等。
(2)数据质量检查模板配置
针对数据集,根据提供的质量规则列表,选择检查项,配置针对检查项的检查参数,生成质量检查模板。
(3)数据质量检查调度
配置调度参数,定时执行数据质量检查任务。
(4)数据质量检查报告
执行质量检查任务,生成质量检查报告,提供报告下载功能。 - 技术实现
(1)质量检查规则实现
(2)执行引擎
Sql、Python。SparkSql。
(3)数据库
(4)定时调度
定时调度引擎。
参考:
[Apache Griffin]
[Openrfine]
按表配置监控规则
内置模板规则
Profiling Use Case
内置模板规则
数据质量检查工具
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 1 概述 SonarQube(sonar)是一个开源平台,用于管理源代码的质量。 SonarQube不只是一个质量...
- 概述数据质量模块是大数据平台中必不可少的一个功能组件,Apache Griffin[http://griffin....
- OpenRefine提供数据集治理功能,它很擅长数据的探索、清理、转换等,主要功能介绍如下。 转换数据 Op...
- 当前越来越多的企业认识到了数据的重要性,数据仓库、大数据平台的建设如雨后春笋。但数据是一把双刃剑,它能给企业带来业...