大数据质量管理工具-Apache Griffin

  1. 概述
    数据质量模块是大数据平台中必不可少的一个功能组件,Apache Griffin(以下简称Griffin)是一个开源的大数据数据质量解决方案,它支持批处理和流模式两种数据质量检测方式,可以从不同维度(比如离线任务执行完毕后检查源端和目标端的数据数量是否一致、源表的数据空值数量等)度量数据资产,从而提升数据的准确度、可信度。
  2. 架构
    在Griffin的架构中,主要分为Define、Measure和Analyze三个部分,


    image.png

各部分的职责如下:

  • Define:主要负责定义数据质量统计的维度,比如数据质量统计的时间跨度、统计的规则(源端和目标端的数据数量是否一致,数据源里某一字段的非空的数量、不重复值的数量、最大值、最小值、top5的值数量等)
  • Measure:主要负责执行统计任务,生成统计结果。
  • Analyze:主要负责保存与展示统计结果
    基于以上功能,大数据平台计划引入Griffin作为数据质量解决方案,实现数据一致性检查、空值统计等功能。质量管理工具主要涉及到如下三个数据模型:
  • Data Assets数据源
  • Data Quality measures数据质量评价规则
  • Data Quality metrics数据质量评价指标
    技术实现。measure负责与spark交互,执行统计任务, service(Analyze)使用spring boot作为服务实现,负责给ui模块提供交互所需的restful api,保存统计任务,展示统计结果。
  1. 实现流程
    数据模型库包括Asset Store、Measure Store、Metric Store,实现流程如下图所示:


    image.png

(1)注册数据源
通过修改配置文件,实现数据源注册,目前界面只能查看到Hive数据源表。
(2)创建质量评价模型
根据质量评价需求,通过可视化界面或者RestApi,选择数据源表,创建质量评价模型(目前UI创建Measure支持Accuracy的Measure,界面上虽然有其他选项但是无法执行job)。评价维度主要包括Accuracy、Profiling两种类型,如下:
Accuracy评价维度:有效性维度,因为为了准确,值必须是有效的、正确的值和正确的表示。(Validity is a related dimension because, in order to be accurate, values must be valid, the right value and in the correct representation.)
Profiling评价维度:准确性、完整性、一致性和唯一性(Accuracy, Completeness, Consistency and Uniqueness)
(3)开启质量评价任务
针对Kafka实时消息数据和数据库离线数据,Streaming Use Cases和Profiling Use Case两种使用场景。基于配置的评价规则,制订定时任务,定时执行流处理任务或批处理任务,生成质量评价结果。
(4)收集评价指标
将质量评价质量存储到ElasticSearch数据库中,提供RestApi质量评价质量接口。
4.准则
4.1 准确度度量Accuracy Measure
4.2性能分析度量Profiliing Measure
如果想看最大值最小值、重复数、空值个数、最大长度、总个数等值就得创建prifiling measure。
(1)空值个数查询
”rule”:”select count(id) from src where id is null”
(2)去重个数统计
”rule”:”select distinct count(id) from src”
参考:
[1]Apache Griffin 入门指南
[2]Apache Griffin User Guide
[3] 尚硅谷大数据技术之Griffin-6质量监控.docx

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,193评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,306评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,130评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,110评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,118评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,085评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,007评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,844评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,283评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,508评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,395评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,985评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,630评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,797评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,653评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,553评论 2 352

推荐阅读更多精彩内容