从阿里巴巴在2018年底正式推出数据中台这个概念后,数据中台就如火如荼的启航了。网络上对"数据中台概念"的理解,对"数据中台架构"的理解,这样的文章数不胜数,但真正告诉我们怎么做的很少,告诉研发人员怎么开发的更少。这也是我想在"简书"这个地方简单书写几句的部分初衷,当然了更重要的原因是(感觉自己工作10年多了也没有在网络上留下什么印记,以前只是看别人的博客,也没有自己的沉淀,正好借这次机会写一下吧:)。
笔者从2019年底正式介入数据中台构建中。起初也是一个偶然的机会,有幸在北京参加了华为、阿里、京东给国网汇报数据中台战略的会议,这是我第一次接触这个概念。后续我在国网营销2.0项目数据中台组负责数据中台构建,在这里我主要是偏理论和架构的工作,直到当前这份工作从最底层开发真正构建了数据中台。在工作中,不断的推演和思考数据中台如何构建,经过多次的迭代&重构形成了个人觉得较为合适的最优实践。
数据中台是什么,个人觉得是一套技术栈组成的解决方案或者说是整体架构。从数据仓库角度说,他打通了企业中各IT部门之间的数据壁垒,将各数据孤岛流向同一个数据湖这本身就是一个进步,后续通过数据的关联分析产生啤酒与尿布的效应,实现数据业务化。从数据服务角度说,他有了企业内的所有数据,通过数据加工计算反哺到企业的生产营销系统,可以完成业务化。从数据模型角度说,中台锻造了一份统一的数据模型,并对外提供一份统一的数据模型。从数据质量角度说,中台起到对源端生产系统的监督作用,并可以监督自己产生的数据。从数据资产角度说,中台可以管好企业内部的所有数据,指标资产、元数据、存储、数据热度等。
目前很多公司都在打造企业级的数据中台PASS平台,如阿里巴巴提供了一套实践数据中台的PASS平台(Dataworks+MaxCompute等)。然而面对开发人员来说,有用的只有阿里巴巴官网文档,既然是原创,就要有所取舍,这里不会介绍官网SDK里存在的部分,更多的会从站在开发者/设计者角度,从整体架构、模块规划、技术选型和数仓理论上阐述数据中台怎么构建,希望能帮助到各位数仓设计&开发人员。实战篇请看文章下方专题内容。