随着云计算、大数据、移动互联网、物联网、人工智能等新技术的不断发展,数据呈现出爆炸式增长,并迅速成为全球各个国家和地区发展的核心生产资料。现如今,数据正在驱动百行百业变革新生,企业数字化转型也迫在眉睫。
伴随着企业数字化转型的浪潮,数据仓库、数据集市、数据湖、数据中台等术语“迎风而生”,那么这些术语到底有什么区别呢?企业数字化转型是不是都得做这些工作呢?为了让广大用户更好的理解这些术语,“i 说数据”今天用大白话来解答这些问题。
一、什么是数据仓库?
首先,我们要知道什么是仓库?仓库有什么用?主要用户有哪些?
仓库是一种贮存物品的设施。仓库中不同的分类,每个分类都有一个唯一编码,它是为了方便仓库管理员对物资进行管理,通过这个编码,仓库管理员可以清楚的知道物品在哪个货架,在哪个位置。
数据仓库就相当于一个贮存数据的仓库,在这里,数据按照特定的模型组织起来,这种模型对数据管理员来说相对友好,因为它按照一种更加集约化的规则将数据管理起来了,存放集中、规整,提取数据不用跨库寻找,查找的效率更加高。
二、什么是数据集市?
举个例子。前文我们说了,数据仓库是对数据管理员相对友好。但是,那种模型对业务人员来说不友好。比如顾客不能直接去超市逛仓库吧。顾客的需求,是按照物品的种类分门别类,按照生活习惯的不同,组合在一起展示的。比如超市中会按照蔬菜、水果、肉类、生活用品等分类,将不同的物品组合在一起进行摆放,有的超市会在扶梯口放一些日常用品等。
虽然,像沃尔玛、华润万家等大型超市也被吐槽,但总的来说,比让顾客直接逛仓库好得多。
所以,数据集市就像超市摆放物品,正如其名字“集市”一样,是一个面向最终用户(顾客)的数据市场,在这里,数据(物品)以一种更加容易被业务人员(顾客)接受的方式组合在一起,这些组合方式可能是多变, 因为业务人员(顾客)的需求是多变的,因此我们需要定期调整集市的计算口径(物品的组合方式),经常会创建新的数据集市(新的物品组合)。
三、什么是数据湖?
举个例子,我们要做一顿丰盛的午餐,首先需要去超市购买各种原材料(米、面、油、肉、蔬菜、水果等),其次需要厨师做饭,最后,需要对没有用完的物品进行保鲜存储,不能浪费么。
所以,数据湖是存储了企业所有原始数据的存储,同时原始数据对数据管理能力依赖性很强,(不同原材料组合,厨师会做出不同口味的饭菜),此外,加工后数据的存储也很复杂(做好的饭菜如果没有保存好,会坏掉)。
四、什么是数据中台?
数据中台是近年来刚兴起的名词,目前业界还没有一个特别明确的定义,“i 说数据”套用饭店与菜单的例子给出一个解释。
一个饭店要开店营业,首先需要有原材料供应与存储,其次需要有厨师对原材料进行处理(厨师做饭),最后需要把成果展示给顾客(饭菜),同时也需要有各种服务辅助(菜单、点餐系统、付款系统、音乐等),提升顾客的就餐体验。
我们可以将其分为狭义的数据中台和广义的数据中台。狭义的数据中台(原材料+厨师+饭菜),指的是一套数据应用和工具,包括分布式ETL、数据资产管理、数据标签管理、数据沙箱、自助分析平台、元数据管理、数据质量管理、数据全生命周期管理等等,底层则以现有的数仓、大数据平台等为数据源,为企业提供数据资产管理的能力,并持续挖掘数据价值,持续提供数据智能服务。
广义的数据中台(原材料+厨师+饭菜+就餐服务),则在狭义的数据中台基础之上,包含了顶层数据战略,数据治理体系以及数据管理及运营、数据文化培养和组织架构支撑,是一套可持续管理和运营的体系。
总得来说,数据中台是为了提高数据服务能力,更贴近用户。以用户为中心也是数字化转型的核心理念,同时也是DT时代的趋势。
五、都得做么?
这个问题要看具体的企业情况,总的来说,一个大原则是以满足业务发展为第一优先,不要为了做基础设施而做基础设施,一定要以能解决业务诉求为最终目的。
企业数字化转型是为了提高用户响应力,帮助企业在商战上先发制人,始终抢得先机。
简言之,用了一系列先进的新技术不见得就是数字化领军企业,不用也不见得就是古典互联网时代的落后作坊。关键是认清自身的数字化现状,拟定数字化目标,制定数字化路径,优选场景,实现价值。新技术、各类数据基础设施只是这条道路上,一套套切实可行的行动方案,是把过去各行各业的种种数字化的尝试,重新以体系化、结构化的方法论梳理,并且赋予当下最新的技术架构予以实施。