|0x00 数字化是一种“阳谋”
2016年的云栖大会,马云提到了未来的五个大趋势:“新零售、新制造、新金融、新技术与新能源”,排在第一个的,就是“新零售”。
那么何谓“新零售”?马老师说:“线下与线上零售将深度结合,再加现代物流,服务商利用大数据、云计算等创新技术”;逍遥子说:“整个商品生产、流通、服务的过程因为互联网、大数据的广泛运用变得更加高效”。总之,这个“新”字,离不开数据,以及应用数据的能力。
但电商已经是数字化程度很高的行业了,那么新一轮的数字化,就不是从单纯的电商场景展开,而是继续推动企业或者政务系统的数字化,让办公效率提上来,让组织通过数据来实现升级。因此,“云钉一体化”的概念被提了出来,因为钉钉+阿里云,实在具有太丰富的想象力了。
企业或者政务系统的数字化,从哪里展开?用钉钉的话说,就是“组织在线、沟通在线、协同在线、业务在线和生态在线”,再抽象一层,就是“人财物事”的数字化。对于任何企业而言,“人的数据”、“财”的数据、“物的数据”和“事的数据”,都一定是企业最核心的资产,因此企业要想提升自己的效率,拥抱数字化时代,这些方面一定要加速的系统在线,然后实现组织数字化。
阿里这么大,能主导这么多企业的“数字化”吗?显然不能。但,可以利用自己的影响力,去提出这个概念,定义为未来的战略方向,引起大家普遍的焦虑感。然后“云钉一体化”,就在赛道的前方等着这些企业,数字化转型需要的东西,我都准备好了,你要不要上车?
对于B端客户而言,数字化是一种“阳谋”,通过动员大家的力量,一起去建设数字化的基础设施,然后以此生长出新的独角兽业务。尽管很多人不认可这个观点,但同行纷纷上车时,你就不能不上车。
然而,“无心插柳柳成荫”,数字化这个事情,这对数据行业从业者,却是一个非常利好的消息。因为数字资产更值钱了,我们的价值也就更大了。今天我们讲一件容易被忽略的概念:主数据,与过去一直讲的维度建模不同,主数据也是一套理论,能够为那些没有典型互联网业务场景的公司,也提供一种数字化的解决方案。
|0x01 什么是主数据
“主数据”并不是一个很新鲜的概念,提出来已经有一些年头了,但却是比较符合当下潮流的概念。“主数据”所对应的,就是“人财物事”的数字化,以及背后应用到的整套技术体系。如果组织要实现数字化,那么主数据的概念,就绕不过去。
在2018年中国信通院牵头编写的《主数据管理实践白皮书(1.0版)》中,主数据(MDM)定义的概念如下:“指满足跨部门业务协同需要的、反映核心业务实体状态属性的组织机构的基础信息。主数据相对于交易数据而言,属性更加稳定,准确度要求更高,唯一识别。”
所以,数据从业者平时接触的很多数据,比如流量报表、用户报表甚至是财务报表,都不是主数据,而公司的职工、客户、实体资产,这些才算是主数据。
按照国际惯例,我们总结一些主数据的基本原则:
权威性:主数据作为企业最重要的数据资产,它的设计并不面向业务系统,而应该保持相对的独立,它服务于但又高于使用主数据的业务系统。
全局性:主数据是超越部门与流程而存在的,以满足跨部门业务协同而建立的,可以认为是所有职能部门业务过程的“最大公约数”。
共享性:主数据是在两个或多个系统之间,需要共享的数据,才能定义为主数据。因此主数据必须应用一种能够被各种异构系统所兼容的技术架构。
扩展性:主数据在设计的时候,就需要考虑未来做扩展的可能性。因此主数据数据项定义时应当遵守开闭原则,即对扩展开放对修改关闭, 凡是已经定义的主数据数据项原则上不应当再次修改。
在企业中,像产品、物料、客户、供应商、员工、会计科目等信息,都是主数据,需要专门的系统来维护和建设。
这里很多人会有疑问:我们为什么要做主数据,主数据有什么用?主数据不仅仅是标准化的数据资产,而且一旦出现了问题,通常都不是小问题。这里的问题不仅仅指数据泄露,也指使用错误。
例如,一个客户投诉了某家银行,声称自己的隐私被泄露。但银行自查下来,似乎没什么问题:只不过是不同的系统保存了客户不同的手机号而已,银行在给客户发送信息时,使用了别的系统存储的手机号,而这个手机号被用户设置成了“隐私”状态。
再或者,传统业务中,一个总部往往要管理全国几十个城市上百家分支机构,如果各个机构之间信息不统一,一个客户存了很多个版本的信息,那么光是校对这些数据,就要花费非常大的精力。
做过进出口业务的同学,都知道进出口业务的复杂性,因此做进出口业务的数仓尤其难做。但模型再难,也有能够想明白的一天,但如果涉及到的主数据系统做不好,仓储、分销等业务板块,独立于国内业务,搞出多套系统来,那恐怕天天校对数据,就能把人折磨的够呛。
所以,主数据映射的是业务系统的标准化能力,是“数据中台”与“业务中台”沟通时,最重要的沟通内容。
|0x02 主数据有什么用
很多人又会产生新的问题:主数据跟我们平时提到的“元数据”,又有什么不同?
在数据仓库的概念中,元数据有两部分组成,分别是:
业务元数据:提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。
技术元数据:支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。
所以,主数据和元数据虽然名字比较类似,但描述的东西却不相同。元数据是“描述数据的数据”,例如数据类型、数据定义、数据关系等,相当于Excel的表头信息;而主数据是用来表示公司的通用数据,不仅包括了Excel的表头,也包括了Excel的内容。
举个更直白的例子,假设我们手里有一本书,元数据就是书的目录,而主数据是书里的正文,我们可以通过元数据,来检索到需要的主数据。
所以,主数据跟元数据类似,只有避免了碎片化建设,通过标准的数据体系来支持业务数字化转型的数据,才是好的主数据。
虽然各个职能领域都会去建设自己的核心数据,例如法务系统中有公司的数据、广告系统中有财务的数据,为了保障业务跑起来,通常都会自己先做一套,但从全局眼光来看,公司的数据应该由HR系统来建设,而财务数据应该有专门的财务系统来维护,它们要保证统一的标准。
那么主数据如何用起来?除了提供标准的数据接口之外,更重要的就是给数据中台提供标准的业务数据,然后数据中台通过标准的数据来积累标准的业务过程数据,这样历史上的信息,才不至于因为系统的调整,失去了统计的意义。
所以,当谈到企业数字化,谈到那些纷乱的数据时,首先就要想起主数据,然后让主数据来解决如下三个难题:
数据的规范性问题;
数据的重复建设问题;
数据的一致性问题。
主数据是解决“数据孤岛”的一种思路,是区别于“维度建模”的另一种数据治理方案。
|0xFF 如何管理主数据
很多公司都知道主数据重要,可大部分公司主数据都做得很差,因为主数据也需要通过一套方法来管理。
主数据首先要考虑的就是建模问题。主数据建模更多的考虑是树状层次的结构展示,与领域模型的思路类似,关键过程和步骤应该如下:
创建数据对象;
创建数据对象的子对象;
创建每个数据对象或子对象的数据项信息,包括名称、类型、其它扩展属性等。
每个数据对象和子对象对应到数据库中一张表,子对象单独没有存在的意义,必须连同父对象存在。对于建模中对应的各个数据项,即是实际数据表中的数据字段信息。
主数据其次考虑的是数据的维护问题,包括数据的同步方式,以及同步后如何进行版本管理,控制相应访问人的权限,等等。同时,当数据在一套系统中维护后,还需要对外提供访问的接口,包括同步给数据中台、提供单个数据查询的实时接口等。
很多时候,由于数据的复杂性,主数据也不一定都放在主数据系统中进行维护,根据实际情况的不同,也可以定义好相应的维护方式。例如,专业的数据可以由专业的系统维护,如财务系统、法务系统,但主数据提供业务系统不具备的数据服务能力,比如数据查询的接口服务。
主数据的概念虽然很老,方法也比较简单,但却是很容易被忽视的一环。例如做组织内部的数据统计时,如果组织的汇报方式可以随意指定,那么很容易搞出图的结构甚至是循环结构,导致数据报表没法做下去了。
因此,再小的概念,也值得我们的重视。正如《劝学》中提到的那样:“不积跬步,无以至千里;不积小流,无以成江海。”