说到大数据就不得不说一下主数据,曾经公司在无数个会议上被多次提到,一群参会的吃瓜群众根本不知所云。今天我们就来分享一下我对主数据的理解。
什么是主数据?
主数据就是描述企业核心业务实体的数据,比如客户、合作伙伴、员工、产品、物料单、账户等;主数据并不是历史日志数据也不是交易流水记录。一个企业的主数据包含多方面的,从不同方面分析都可以找到大量描述业务数据,例如航线、航班是对于航空业务重要的主数据。既然主数据如此重要,那么要怎样才能高效的维护管理主数据呢?
为什么要有主数据管理?
很多公司在成长过程中,由于前期对信息系统规划不到位,导致公司信息起步初期,各信息系统独立建设更像是一根一根树立的烟囱。各系统维护各自数据,各系统拥有自己的一套业务数据。初期各自为政的建设,各扫门前雪休管他人瓦上霜的做法往往是最高效的。但前期的顺畅埋藏了隐患,同一类数据在不同系统中被维护多次。比如,公司的人力系统维护了“张三”的个人信息显示年方二八,然而排班系统同样也维护了“张三”个人信息却年龄却是27,如果我们要使用“张三”的年纪,我们疑惑了该以哪一个数据作为准确的呢?可能在建设初期规定所有员工必须在人力系统中进行统一维护,然而在实际操作中由于各种原因不太可能严格按照约定操作,就会导致业务系统存在的人员信息人力系统并没维护或维护数据冲突。
主数据的出现就可以解决这个问题,主数据管理主要管理什么呢?如果将公司的人力数据统一通过主数据进行管理,只有主数据是提供统一的、准确的、唯一的且具有权威的人力主数据那么就可以解决这些问题。
主数据四大工作特征,数据集成、数据共享、数据质量把控、数据治理。主数据管理就像将有一个无形的吸管插入不同的系统中,不停的从各个系统中吸取最核心的数据,然后将这些数据进行整合、过滤和清洗,形成准确统一的数据。并以服务的方式把数据分发给全企业范围内需要使用这些数据的操作型应用和分析型应用。
主数据系统为全公司所有应用的系统提供核心数据,那么主数据管理平台在性能上就不能影响业务操作,如果将公司所有的运行日志放入到主数据管理平台势必会大大降低效率(该放入数据仓库中),并且日志记录数据不属于主数据管理的范畴。主数据应该存放支撑应用的基础数据,比如客户关系系统中可以纳入主数据管理平台的数据是客户信息数据,因为可以为其他系统提供统一的、完整的、准确的、具有权威性的客户信息数据。相比订单数据就不能纳入主数据,订单就是销售的流水信息,应该放入数据仓库中,供数据挖掘分析应用。
主数据管理的解决方案
主数据框架是一个企业级的系统,意味着需要纳入管理的系统比较多,会横跨许多部门。企业级的主数据架构将以明确方向来规划系统的建设。下面介绍主数据架构中的主要内容。
大企业存在的壁垒较多,在推行主数据的时,系统调研、部门协调,会消耗非常多的时间,这也是实际中不好控制的部分。
1.数据采集,通过ETL或者其他同步程序将业务系统中的预定义的主数据进行抓取,为主数据平台不断的提供新鲜血液。
2.数据清洗,清洗抓取的数据,形成统一的、完整的、高质量的主数据,就如同肾脏过滤掉血液中的垃圾废物一样。
3.标准服务,主数据对外提供标准一致的数据服务,将这些数据分发到各个应用系统中,如同血管将肾脏过滤过后的血液统一分发到不同的器官中一样。
4.系统监控,监控数据从采集到清洗再到分发整个过程中的情况,就如同人体的健康状态一样不断的反馈身体器官的各种问题。
5.WEB页面,通过WEB页面进行管理和使用,界面美观,用户体验友好,就如同长得漂亮的女孩,走到哪里都受欢迎。
小结
主数据是大数据建设中的一个重点内容,过往很多人对于大数据还是一头雾水,通过了解前一张的元数据和本节内容,我相信你应该对大数据建设有了一个比较清晰的了解了,我们将分享一些大数据的热门技术。