数据中台和数仓的关系

传统数仓

传统数仓有几个特点:

  1. 数据具有历史性
  2. 基于文件存储
  3. 以表为形态,自带元数据存储(比如Hive)
  4. 在数仓的数据是其他数据的拷贝或者拷贝的加工

传统数仓需要拷贝数据的重要原因是因为基于数据和存储需要尽可能的近。所以我们需要把MySQL等数据源的数据同步到数仓,才能进行进一步处理,另外传统数仓更关注的是数据的历史状态,所以导致数据规模庞大。 数仓本身也具备计算能力,同时也可以作为存储供其他计算系统使用。

数据中台

数据中台设计立足点本身是数据和存储分离的。那就意味着,数据中台本身并没有数据,数据来源是其他的的,比如传统数仓,业务数据库,用户在中台上传的文件(临时使用),各个业务系统的API(瞬时,我们不关心API之前的数据结果是什么样的)。因为数据中台拥有这些数据源的适配器,所以相当于建立了互联管道。

我们知道数仓的优势是有元数据,通过表的方式很好的规整了数据。数据需要加工,所以一般数仓是有分层的,往上走一层,数据信息损耗就高一些。数据中台也有一个全局的元数据管理系统,管理也是以表为主,粒度到字段级别。数据中台这个元信息包含了各个子存储的元信息,以数据中台需要的形态进行组织。

数据中台的元数据其中承载的一个重要功能是数据地图,虽然在数据中台中,修建了通往所有数据的道路 但是当用户进来的时候 他无法知道具体某个数据的地址 也就没办法利用这些修好的道路。数据地图就是解决这个问题 我们需要结合自然语言处理,检索技术,目录分类技术,机器学习以及数据规范化来帮助找到数据地址。数据地址从来都不是面向人类有好的。

通过数据中台的数据地图,以及数据中台到各数据源的建立好的管道,那么我们就可以很好的找到我们要的数据以及对他们进行关联和处理,分析,甚至进一步成为机器学习的素材。

数据地图和传统数仓元数据的区别在于,

  1. 它记录了散落在各个孤岛的数据,而不像传统数仓,只是在自己的数据。
  2. 数据格式是异构的,不仅仅是文件。
  3. 他不仅仅存储表以及字段相关信息,同时还有还让这些信息可检索,可查询,可以更好的面向人而不是机器。

结论

数仓是数据中台的一个重要组成部分,也是元数据的一个重要来源,但是随着技术的发展,数据和存储必定是分离的,这就需要一个新的元信息系统(数据地图)来进行承载。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 今天是什么日子 任务清单 周目标·完成进度 2、搞了一辆景观车,回家过年好解放双手 学习·信息·阅读 健康·饮食·...
    曾雪芒阅读 91评论 0 0
  • 窸窣,窸窣, 清晨的浓雾化不开, 沾染鲜血的手洗不净, 有人倒在地上我不愿意看见, 却无法漠视这一切, 那呼喊的声...
    释迦干屎橛阅读 520评论 0 2
  • 我每次和学员第一次见面的时候,我会习惯性的向她们询问,你有什么诉求吗,或者有什么想要改变,增强的地方。 简单来说,...
    那个教练阅读 719评论 2 6
  • 迷茫,现在似乎成了一个时髦的词汇,尤其是在年轻人当中。好像没有谁不迷茫的,仔细想想,似乎迷茫无处不在。 学习太辛苦...
    造梦弄人阅读 608评论 0 0
  • 那天 你出现 我眼前 从此 我的世界 都是你 每天清晨 期待 你出现 在我的眼前 梳妆洗漱 看过了 你的笑 还有 ...
    远方韶年阅读 298评论 4 7