在阿里的推动下,大数据借数据中台概念在企业级市场,又火了起来,而且有越来越火的趋势。越来越多的供应商也在陆续推出相关的数据中台产品。那么数据中台买的来么?各位看官别急,先吃点别的瓜哈:
数据体系建设的意义
大型企业数字化转型的核心是利用网络协同效应和数据智能,赋能业务创造更多的用户价值。但是网络效应和业务类型强相关,强大如Uber、滴滴受业务所限也仅仅只能做到规模效应,各类产业企业就更不用说。因此对于大型产业企业来讲,建立适合自身的数据体系从而持续产出数据智能,是更加确定性的事情,也更值得坚定投入。
数据中台的背后
结合在阿里和滴滴的工作经验,来谈谈数据中台的成军历史和背后的体系经验:
这张图是阿里数据中台的整体结构图:
这个图清晰的展示了阿里数据中台的系统构成、核心的数据架构体系以及数据价值的输出方式。阿里持续投入了10年,历经多次变革才做到,它背后的演进历史与业务挑战是具有相当代表性的:
业务信息化
阿里很幸运,作为原生的数字化企业,没有老业务的包袱,加上中国的工程师红利,它天生就是信息化的,一上来就跃上了第二个台阶。滴滴更幸运,借助智能手机的快速普及,完成了位置业务的信息化,顺势而为从而一飞冲天。
信息数据化
伴随企业业务高速发展,产生对BI和数据产品的强劲需求,初阶但是繁杂,依靠开源生态尤其是Hadoop红利,让顶部的互联网企业趟过了这个阶段,中间的苦和累,我相信只有在几个大厂做过数据平台和系统的人才能深深体会。
以阿里为例,在马云和曾鸣的决策下,将数据的重要性提到了当时前所未有的高度,并持续真金白银的投入,同时一位位数据起夜家(阿里对每天晚上处理数据异常与故障的数据工程师的戏谑称呼),沉淀出了阿里底层的计算和存储平台,打磨出了更为贴近数据工程人员需求的数据集成研发平台和管理平台,同时还打造了阿里宝贵又独特的数据文化。数据建设:庙堂与江湖缺一不可。
数据资产化
当淘宝决定把Oracle Rac废掉,意味着淘内数据使用繁荣的开始。高速的大繁荣意味着混乱,也意味着机会:从数据集到工具,到平台,到产品变现,到团队都是野蛮快速生长的过程,野蛮生长的代价之一就是一致性的缺失,这驱动出了阿里的TCIF,后来成为One Data体系中重要的部分。进而发展为数据打通、整合、梳理、集成的资产化管理。
而正是从这个阶段开始,数据从一个技术为主导的问题演变成了企业的管理和组织为主导的问题,如果没有处理好这个转变,基于数据带来的团队间的撕扯、业务间的诟病和系统间的浪费会接踵而至,因此数据的资产化背后其实是企业面对新生生产资料-数据是否能够找到适合自身的管理策略和组织文化的过程,缺乏实战经验的咨询公司和大数据平台供应商,把这个问题简化为狭义的数据治理,是存在问题的。
资产变现化
在各种BI场景和数据产品万马奔腾之下,用户增长场景的价值一支独秀,如果企业媒体属性足够大,还能产生出精准营销业务,这意味着数据从赋能员工做决策,开始长出牙齿变成算法服务大规模的直接服务用户,阿里妈妈就是这匹长出獠牙的数据智能之狼。阿里生态系统,终于诞生了一个三赢的利益分配机制(消费者、平台、商家),数据功不可没。数据赋能出的各种高大上AI算法,即便强大如Uber、滴滴的调度和匹配算法,我认为这些都远不如阿里妈妈这个利益分配算法体系伟大,当然原创在Google。
AI在图像、语音和视频的全面突破,彻底将企业对非结构化数据处理的能力提到了一个新的台阶,此前这些数据的处理全部是要依靠人工的,带来的效率飞升将带来各种产业的巨变。
第二轮数据四化已到来
阿里在电商业务驱动下,完成第一轮数据四化循环。而这三年阿里的新零售和阿里云的智慧城市,我理解就是在AI和IoT技术变革下进行的第二轮数据四化循环。我们一起搬好凳子看看阿里在产业的信息化和数据化会演绎一出怎样的好戏吧:怎么依靠阿里人的智慧来解决物联网碎片化、传统产业难以在线化的大难题!梦想还是要有的,万一实现了呢?
那数据中台买的来么?
数据中台是企业利用大数据技术,以可快速复用和组合搭建为目标,进行数据服务建设的结果。北洋水师的耻辱相信每个中国人都还记得,尤其是坚船利炮上晾晒衣服的水兵形象。武器能外购,兵法可学习,但是胜利一定来自适合本国军队的军事理论和练兵实战的知行合一体系。
所以说,数据中台哪有这么容易。相信数据中台买来开箱即用的人,可能是无知无畏,更多是非傻即坏。
下集预告:
阿里数据体系有破绽?
阿里数据中台背后的数据体系,我认为有两个破绽:
1. 以ETL为内核造成的复杂性,复杂到对软件工程方法论的不兼容,不能较好的融入到业务平台的软件工程体系,对于大型以下企业的借鉴成本太高
2. 数据建设的集权属性太强,强大到对创新的抑制
中台思想的一个问题就是持续的中央集权,建立破除黄宗羲定律的机制是非常必要的。在今后数据、AI服务平民化的趋势下,越来越多的数据密集型智能应用开发会成为主流,这种不融合与大集中会造成问题的。
数据体系建设困难的原因
1. 企业对数据的使用早就不是建数仓、做报表了,是各个部门各个层级各个角色对可靠数据支援的巨大需求。怎么建立适合企业自身组织特点的多方需求服务机制?怎么建立任督通畅的数据流通体系?
2. 业务对于数据的需求是:快、准、省;正是效率、质量、成本这个‘不可能’三角,让数据团队如履薄冰!
3. 数据是业务稳定生产和创新的必要条件,但是这个导致的集权与分治的矛盾很难解决
精益数据体系
汽车工业也许是人类目前构建的链路最为复杂、稳定性要求最为苛刻的工业制造体系,丰田倡导的精益制造思想是非常值得数据工程学习的,因为数据的加工生产过程和质量要求,和汽车的生产协作链路是如此相近。
近20年成熟的敏捷软件研发体系,尤其是近年来的DevOps体系,让软件产业的效率、质量、成本和创新都取得了较好的进步。DevOps背后:一切皆代码为基础思想,快速迭代创新、测试驱动、持续集成、持续测试、持续交付的开发流水线是非常值得数据工程融入其中的。
因此以精益和敏捷为思想基础,构建了下面的精益数据体系方法论: