引言
在中国信息化系统已经做了几十年了,尤其是政府信息化,很多系统的建设初衷之一就是消除数据孤岛,大家一直都在高喊消除数据孤岛,至少喊了一二十年了,结果是系统越建越多,数据孤岛也越来越多。就像某洗衣粉广告一样,永远就是只能用新一代产品来解决老一代产品不能解决的顽渍。今天我们就来一起探讨一下为什么消除数据孤岛就这么难。
软件行业发展历程
要搞清楚数据孤岛是怎么产生的,我们先来回顾一下软件行业发展经历的几个阶段:
单机工具软件阶段
最早的软件都是单机运行的工具软件,而软件产生的数据也是采用各自软件自有的数据文件格式存储,其中很多软件对自有的数据文件进行了一定的加密处理,或者采用二进制数据存储。很显然这种单个的数据文件就是与生俱来的数据孤岛,也就是说自打有了软件就有了数据孤岛。
数据库软件阶段
随着技术进步和数据库软件的发展,后来逐渐采用应用与数据分离的系统设计,各系统采用关系型数据库存储系统数据。但这个阶段依然还是采用的集中式数据存储,各个系统之间的数据库存储的数据没有统一的数据标准,数据库之间依然无法进行有效的数据交互和共享。
分布式软件阶段
随着网络技术的发展,软件设计逐步采用网络分布式架构,数据也采用分布式数据存储,将分散独立的存储设备通过网络互联,系统关联,对外作为一个整体提供存储服务。分布式存储只是解决了数据存储的效率和安全性等问题,并不能从根本上解决系统间的数据交互与共享。
云计算软件阶段
随时网络技术、大数据技术、云计算技术的发展,软件系统设计进入到云计算时代,数据存储也采用了分布式云存储数据中心,云存储是一种云计算领域存储服务方式,底层构建在分布式存储基础之上,通过网络方式提供存储服务,随着云计算技术的发展,云原生存储将云基础设施API化,构建统一的云存储服务。云计算和云存储在技术上提供了系统间数据交互与共享的可行性,然而系统间实现数据交互与共享还有一层层涉及政策、体制、利益的隔阂。
数据孤岛产生的原因
纵观软件行业发展历程,从单机工具软件阶段发展到云计算时代,如果说数据孤岛是单机工具软件的必然诟病,那么为什么到云计算时代依然还会存在数据孤岛呢?核心问题是不管哪个阶段,各个系统的设计关注面还是聚焦在系统自身的业务领域,很少考虑业务系统之间的数据交互和数据共享。所以导致一个很普遍的现象,有些地方政府甚至已经花费大量人力、物力、财力建设了大数据中心、城市大脑等平台或系统,依然还存在“数据孤岛”。究其原因其实是多方面的,主要包括:技术水平、 认知水平、管理手段、社会体制等。
技术水平
近些年我国的信息技术发展虽然非常迅速,但总体发展时期还是比较短的,总体技术水平在国际上还是处于比较落后的状态,政府信息化也是起步较晚,所以受技术水平的限制,信息系统在建设过程中产生数据孤岛也是阶段性必然,需要整体技术水平提升才能在技术上解决数据孤岛的问题。
认知水平
由于整体发展时间较短,软件行业的整体认知水平也是在不断进步,不管是决策者、实施者的认知都是在不断更新不断成长的。不可否认在相当长的一段时间内受认知水平所限,我们很多系统的建设存在很多设计问题,导致诸如数据孤岛的问题普遍存在。
管理手段
任何一项工作的管理水平决定了总体高度,在信息化建设过程中,由于很多领导不懂技术、不懂信息化,因此在软件系统建设管理方面缺少有效的管理手段、缺失相关的监督机制,缺少相应的标准规范,导致系统建设的水平参差不齐,各种各样的系统烟囱林立,数据孤岛比比皆是。
社会体制
由于我国社会体制的特点,早期很多系统在建设过程中并不是市场竞争环境下单纯技术因素决定的,导致很多系统建设存在不少的问题,甚至于一些系统建设完之后并没有实质性的投入使用,随着我国社会进步,市场化水平不断提升,也涌现了一批具体一定技术实力的软件公司,政府在信息化方面的投入和监管也逐步走向正轨。
解决数据孤岛的途径
总而言之,解决数据孤岛的途径就是:建立统一标准、完善相关机制、构建开放共享的大数据平台。这一句毫无营养的废话,一句没有价值的口号。这些年都是这么喊的,不客是政府的相关文件,还是企业的方案文档,都会有这样的类似的表述。完美到没有瑕疵的表达,正确到不能再正确了,也就没有意义了。
解决问题还需要找出关键原因,才能对症下药。上面分析了很多产生数据孤岛的原因,首先它不是一个单纯的技术问题, 数据孤岛产生的核心问题是各个业务系统建设过程中只关注自己的一亩三分地,如果我们把数据共享和交换作为系统建设必要完成的目标之一,相信各个系统建成之后都不会存在数据孤岛了。问题来了,怎么达成这个目标,用什么标准来衡量这个目标?
随着技术的不断进步,软件工程和软件架构技术都在不断发展,尤其随着互联网技术的发展,我国在云计算和大数据领域的技术水平,已经足以支撑各类应用系统的建设。只要是具备一定规模的技术公司都有能力承担信息系统的建设任务。
要达成信息系统数据能够共享交换的目标,首先在机制上,业务系统与大数据共享平台分立建设,同时要求各业务系统需要与大数据共享平台进行数据共享与交互,业务系统建设的同时需要设计相应接口和机制将数据汇交给大数据共享平台,同时各业务系统之间进行集约化建设,避免重复建设。实现数据一方生产,多方共享。数据孤岛的存在,它的源头在于数据生产侧,也就是各个业务系统,抓住了源头,就可以找到解决问题的途径。只要打破业务系统的数据壁垒,就可以有效解决数据孤岛的问题,数据通过一定的汇交机制,能够无损的汇聚到大数据共享平台,再通过大数据共享平台与其它各个业务系统进行共享交换。
其次是数据标准,其实没有真正的统一标准,能满足数据生产的业务系统的需要就是最低的数据标准,在此基础上,需要再增加一条原则,所有业务流程数据和办件结果数据都需要留存汇聚到大数据共享平台。
另外是质量标准,我们之前有一些国家层面和行业层面的信息系统建设的标准,但都是比较宽泛的,在实际建设过程中的指导意义不大。近年来国务院办公厅、发改委、工信部、住建部等部委也都出台了相关指导性的标准文件。尤其是针对大数据共享平台、大数据中心等指导性文件,具有一定的实践价值和指导意义。
现在探讨数据孤岛问题并不过时,反而正是时候。现阶段,我们有大量的既有信息系统,需要进行数据整合、系统整合、业务整合。在进行大量既有信息系统整合的过程中,需要把握住恰当的时机,运用正确的技术手段,采用合理的整合方案,才能有效地解决前期遗留的数据孤岛问题。尤其是上海和广东开始提出的数字政府一网统管体系建设,未来三年将是全国逐步开展一网统管行动、推动数字政府建设、深度融合不同行业数据、进一步打通信息孤岛,通过数据融合运用实现社会基层数字治理。后期有机会我们再专门针对如何建设大数据共享平台以及如何解决大数据共享平台与业务系统的关系问题进行探讨。