数据管理——数据规划真的可行吗

元数据是大数据平台的一个基础,大数据平台是以元数据为中心进行构建的。一个大数据平台能够把元数据管理好,那么这个平台就成功了一半。那么对于元数据我们能够规划些什么,是否可行?

数据规划的时候都规划什么

数据的规划都规划些什么,具体来分的话大概包括两个层面的规划,一个是表层面的,一个是字段层面的。

表层面的规划

表层面的规划涉及到数据仓库设计了。会包括了数据仓库分层、业务线划分。

数据仓库分层

对于数据仓库的分层也就是我们在数据仓库领域中常常听到的ODS、DWD、DWS等等层级了。

在一般建表过程中,只需要在表名称之前增加前缀来区分不同层级即可。但是在大数据平台上,我们还希望增加一个类似分层的标签。来区分表分别属于什么层级。

如果使用的是向导式的建表过程,可以直接在建表过程中,增加数仓分层的选择,这样在建表过程中就确定表所属数仓分层。如果是脚本式建的表,就需要表创建完成之后,再进行一次维护,因为在脚本式的文本编辑框中,是没有办法标记,表属于什么分层的,当然,除非表的分层和底层存储的数据库具有逻辑关系,即不同的数据仓库分层,即是不同的数据库。(好像大部分实际情况也是这个样子的)。

业务分层

一张表除了需要确定是什么数据仓库分层的,还需要确定是什么业务域的。一个数据仓库一般是汇总多个业务线数据,这些业务线中有的业务域重叠,有的是独有的。这就需要按照实际的业务情况进行划分。如果说数据仓库的分层是一个技术问题,业务域的划分就是一个业务+技术的问题了。需要对业务足够熟悉,又能知道把这些业务怎么进行技术表达,做到不重不漏。

在表上进行业务域的打标签,和进行数仓分层基本类型,如果向导式的可以直接在创建过程中进行打标。如果是脚本式,则需要再维护一次了。

表层面的规划,可行吗

回到上面的问题,数据规划可行吗?个人认为在表层面的规划是可行的,也是有必要的。有了这些数仓分层、业务域划分,就能够很好的找到数据,或者后续对不同的层进行治理,审视。

💡 个人感觉在大数据领域更多的是一个经验领域,每个人都有自己的认识,各种名词也都不能完全统一,各种理解也会有各自的角度,这里更多的是从自己的实际工作理解出发,后续可能随着工作接触不同层面,理解也会变化。

字段层面的规划

另一个层面的规划,字段层面的规划,这个层面的规划是否能够可行那?又有哪些可以在字段层面进行规划那?

数据指标

数据指标的使用,首选需要数据指标的统一。

数据指标的统一,在有一个系统支持之前,一般使用一张excel表进行管理,使用一个表格统一需要的指标口径,这种情况下可能小范围统一是可行的,如一个项目组,以为一个项目组内的信息拉齐很简单。如果要更大范围,变成全公司、全集团级别的指标对齐,就不能单单依赖Excel了。而是有一套系统,有指标的创建、审核、发布、下线等流程。

有了统一的数据指标,但是最终可以在两种场景下使用。一种是建模场景下的数据指标,一种是OLAP场景下的数据指标。这里的数据字段级别的规划,主要是在建模场景下的数据指标规划。

🔑 数据指标使用,个人划分为建模场景下的数据指标使用和OLAP场景下的数据指标使用。这两种场景多少有些细微的类似,但是又多少有些细微的区别,也说不好这样分有没有道理,先暂且这么记录吧。

如果有了全公司统一的指标口径之后,在建模场景下能在哪里使用。个人认为只能在图形化向导式创建元数据过程中使用。在向导式创建元数据的时候,将字段名由输入框,变成下拉选择形式,只能选择已经发布的指标来创建表,而不能随便输入任意字段。这样就能够从元数据层面上确保所有类似含义的指标在名称上、口径上是一致的,不会出现相同含义字段不一致的问题。

但是,这种向导形式,在实际的数据开发过程中是否适用,是不是能够强力的推广图形建模,而将SQL语句形式禁止掉。个人认为可能并不是特别可行。这必然会拖慢研发效率,在实际中不一定能推广开。

数据标准

这里只说下数据标准的使用,暂时不说数据标准的确定,后续会单独写下确定数据标准。数据标准里通常还会包含码表的部分,就统一称为数据标准,不做单独的区分。

如果确定了标准,最终在哪里使用那?个人感觉都是在向导式的创建元数据中后,去选择一个数据标准,也就是将这个数据标准和这个字段进行一个关系的绑定。绑定关系确立之后能做什么?如果是进行质量的校验,把不符合标准的数据过滤出来,又和数据质量有关了。如果不和数据质量有关,那确定了标准之后,的然后那,就好像没有什么然后了。所以一直也没有想清楚,数据标准在创建元数据过程中起到一个什么样的定位,还需要再学习下。

🔑 个人没有接触过工业领域的数据标准,感觉工业领域对于这种数据长度、精度等数据标准的应用场景可能会更多些。

字段层面的规划可行吗

字段类的规划在实际中能够跑的通吗?说实话,目前没有看到过跑通的案例。两方面原因吧。

一方面,不管的数据指标还是数据标准,字段级的规划都需要图形界面支持,也就是向导式来创建元数据,这样创建元数据的形式需要一行一行添加,字段多的情况下,需要设置的内容太多了,研发人员也不一定会接受。

另一方面,就是大部分公司都已经有了一定的基础了,也就是有历史的数据,在这种场景下可以称之为历史包袱了,没有办法说把所有的都调一遍。

存在即合理?

如果按照存在即是合理的理解,只能是自己还没有遇到过具体的业务使用场景。数据指标如何使用,数据标准如何使用,这个还需要继续深入研究下。

但是有一个有趣的点。就是各个云厂商好像又都有这个模块,不知道是他们想清楚了怎么用,还是因为有了这个模块在竞标功能项上不丢分,至于是不是能用起来,就不是云厂商的事情了。

据传Dataphine能够将字段层面的规划用起来,因为使用Dataphine的一个前提是,从头开始,从规划、建模、开发。如果在流程上严格的做到建表向导化,也是可行的。据说这个也是为啥阿里既有Dataworks又有Dataphine的原因。Dataworks面向的就是有历史包袱,Dataphine重头再来。当前也可能仅仅因为人力资源过于丰富了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,928评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,192评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,468评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,186评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,295评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,374评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,403评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,186评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,610评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,906评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,075评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,755评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,393评论 3 320
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,079评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,313评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,934评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,963评论 2 351

推荐阅读更多精彩内容

  • 数仓总结 数据开发的本质是理解业务,设计合适的数仓结构,数据模型问题往往是一环扣一环的,需要有足够的技术深度,将知...
    Miracle_Data阅读 1,758评论 0 2
  • 一、背景 在当今世界,大数据时代的来临,带来了信息技术发展的巨大变革,并深刻影响着社会生产和人民生活的方方面面。如...
    Andy_shenzl阅读 328评论 0 2
  • 一切的故事在一场没有结局的电影中散场; ...
    Charmingboy阅读 85评论 0 0
  • 非常有幸参与《数据中台-让数据用起来》的鲜读活动,第一时间在出版前就尝鲜阅读。全书按照Why--What--How...
    严国华阅读 1,646评论 0 18
  • 数据仓库系列文章(部分已出,持续更新) 数仓架构发展史[https://mp.weixin.qq.com/s/lw...
    大数据技术派阅读 465评论 0 1