元数据系统的产品形态

上一篇 给初心者的数据仓库元数据系统开发指南 主要是描述了元数据的基本概念和典型需求。实际的开发和使用中,还有个基本问题容易被混淆,关于元数据的产品形态。

元数据门户

这是最直观的产品形态,可以让数据的开发者有个地方,可以集中查看数据仓库的基本信息,比如表结构、注释。这是个生产力工具,可以提升数据开发者的生产效率。多从数据开发者的使用角度思考,让他们用的爽,元数据门户的用户数自然而然就会提升。

这个门户可以是独立的域名和页面,也可以嵌入到开发环境里。比如著名的开源开发平台hue,就可以查看Hive表的基本信息,当然系统自带的功能比较弱,不足以提升生产效率。

开发的策略有两种

  • 基于需求:作为数据仓库管理者,被用户吐槽或咨询最多的,就优先通过元数据的系统能力解决。
  • 主动设计:数据开发者很难有全局和长远的视角,他们并不知道元数据可能的更大价值,可以主动设计元数据门户的功能,然后按照自己的节奏去开发。

快速找到想要的信息

为了更高效展示,元数据门户需要面向不同的用户,给出不同的检索方案

  • 搜索:根据表名、字段名、注释、责任人,匹配到相应的数据仓库表。可以参考主流搜索引擎的高级搜索,提供更多维度的筛选,比如按业务域、大小、更新时间等筛选,以及更清晰的关键信息展示。
  • 导航:搜索面向的是熟练开发者,他们知道自己要搜什么。对于小白用户,更好的寻找信息方式是导航,类似于hao123这样的网址导航。把数据仓库的信息归类展示,比如按多级的主题域,优先展示最常用的表。

血缘关系是另一种可以帮助用户找到信息的工具

  • 表级血缘:实践证明,即便是熟练的开发者,也只能记住少量关键表,通过关键表的血缘关系,可以很快找到关联的其他表。
  • 字段级血缘:可以更细粒度跟踪某个字段的上下游关系,比如修改一个字段,要观察影响到的下游任务。

上面都是从表的角度描述,另一种更贴近小白用户的是指标角度的描述。一个典型场景,产品经理想做用户画像,可能会拍脑袋决定需要用若干统计指标来衡量用户的购物偏好。如果有这么一个指标的导航系统,可以快速勾选数据仓库已经存在的指标,这个拍脑袋的过程就会很愉快。

元数据驱动数据仓库开发

怎么提升数据仓库管理员对系统的掌控力呢?把数据仓库规范落地到元数据里可以做到。部分能力与开发平台、调度系统的边界已经很模糊,要根据实际情况来决定在哪边实现,或者干脆只是一个系统。

  • 开发时:命名规范、SQL规范、鉴权,这些能避免数据仓库被滥用。
  • 运行时:数据质量校验,问题严重时需停止调度并告警;数据倾斜、异常任务检测等。运行时主要是能第一时间发现异常任务,并帮助及时解决。
  • 运行后:通过数据质量事件,生成数据质量报告;通过运行时信息采集,生成性能消耗分析报表;通过血缘关系,做到数据质量事件的影响分析;通过审计,得到数据平台的使用情况报表。能做的事情还有很多。

这里的产品形态可以有两种

  • 面向开发者的,需要与开发平台、调度系统结合,比如SQL规范的校验与错误提示。元数据系统作为强业务逻辑的子系统,可以实现大部分数据仓库的规范,并提供一系列接口给其他子系统使用,比如数据同步、调度、IDE、BI系统。
  • 面向数据仓库管理者的,比如一系列分析报表,很可能是基于元数据的二次统计分析。

有的公司会把某个管理功能独立出子系统,比如数据质量,可能会有准确性校验的子系统,也可能有数据生成及时性的监控子系统。

系统背后的数据采集

要实现上述功能,首先是有这些元数据,需要从数据仓库里采集。可以有这么几种办法

  • 通过脚本采集
  • 后端服务提供接口,由外部调度系统触发采集
  • 后端服务内部定时触发采集

建议尽量把采集功能在后端服务实现。脚本采集开发起来很快,但是维护较困难,一旦功能修改,服务端的采集和展示功能在一起,很容易保证一致性,而外部脚本修改会更困难。

小结

元数据系统的产品概况来说有这么几类

  • 数据开发者可见
    • 元数据门户,提升开发者生产效率
    • 把数据仓库规范嵌入到开发平台,甚至作为独立子系统,保证数据开发可控
  • 管理员可见:根据元数据,得到数据仓库的各种报表
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343