来源: 数据工匠俱乐部、国脉电子政务网
一、背景介绍
2015年以来,国务院相继下发《关于促进云计算创新发展培育信息产业新业态的意见》、《促进大数据发展行动纲要》和《推进“互联网+政务服务” 开展信息惠民试点实施方案》等文件后,我国政务信息化发展从共享交换时代进入大数据时代。
近年来,我国在大数据发展方面持续发力,取得了明显成效。但也要看到,目前我国大数据发展还存在“孤岛化”“碎片化”等问题,无序参与过度与创新参与不足并存,导致大数据资源配置统筹不力,部门间缺乏有效互动,开放的大数据平台缺失,大数据的应有作用尚未充分发挥出来。
某省委、省政府把大数据发展作为推动政府治理和公共服务能力现代化、促进经济社会转型升级的重要抓手,根据《某省大数据发展行动计划》,在“十三五”期间,某省将进一步加强信息基础设施建设,拓展互联网与经济社会各领域融合的广度和深度,以“数聚善政、数聚兴业、数聚惠民”为目标,着力加强大数据技术攻关,完善相关法规制度和标准体系,推动政府数据资源整合和开放共享,规范和深化大数据应用体系,强化大数据安全保障,切实使大数据成为经济社会可持续发展的辅助决策重要因素。
目前某省政府70多个省级部门拥有和管理的数据,如典型的公安、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、环境、金融、统计、气象等数据,呈现数量巨大、结构复杂、类型众多等特点。但各部门却各自为战、独立建设,即使在省级部门内部也是垂直和水平并存,无法有效支撑某省政府“群众办事百项堵点疏解行动”和实现“一网通办”的信息化建设目标。各部门数据问题主要突出表现在以下几个方面:
1)各部门信息化差异大
信息化程度差,老旧数据多
各部门信息系统建设自成一体,数据融合困难
2)缺乏统一数据标准,无细化技术规范
数据格式五花八门,信息获取困难
数据模型差异大
同样的数据往往有多个来源,缺乏准确的数据识别和指标定义,造成数据口径不一致,统计指标差异大
3)数据保护主义严重,数据资源分散
受到部门利益以及相关法律、法规与行政管理体制等约束,各部门对各自业务数据有很强的保护意识,各局委办自成一体,信息孤岛情况严重
数据资源分散在不同部门的业务系统中,没有实现资源有效的汇集整合,更难以实现整合数据价值点挖掘,支撑决策分析
4)数据权限设定难,数据安全风险大
数据所有者理解难,导致数据审批流程难以确认
数据汇集后,无端到端的安全保证
二、建设目标
随着“互联网+政务服务”进程的进一步推进,要求政府建立部门间协同机制,打破部门利益垄断,加强部门间的数据整合,实现政府部门间的信息共享与交换,强化数据资源社会开发利用,推动跨行业、跨地区的信息共享和业务协同,真正做到“用数据说话、用数据决策、用数据管理、用数据创新”,实现“数聚善政、数聚兴业、数聚惠民”的大数据发展目标。
政务主数据管理立足于对政务信息化的深刻理解,依托于成熟、先进的主数据管理解决方案,全面梳理识别出全省范围内的主数据,建立起有某省特色的主数据管理体系,为政府职能转变升级,打造透明、阳光、责任政府,以及响应国家层面的政务大数据公开和数据驱动创新创业的大格局保驾护航。具体建设目标主要包含以下几个方面:
1)制定统一的数据标准,技术规范
严格遵循数据标准规范,在数据治理过程中,稽核数据质量,针对问题数据形成数据工单,下发数据提供者,不断提升提供者提交的数据规范性
2)实现政务数据资源共享
打破信息孤岛,变“群众跑腿”为“信息跑路”,变“群众来回跑”为“部门协同办”,变被动服务为主动服务,快速实现政府部门间跨地区、跨层级的信息共享,强化业务协同应用
数据集中管理,支撑智慧城市智慧跨部门业务开展
公共数据统一开放,促进信用、交通、医疗卫生和档案等各类民生保障服务建设
3)丰富的政务应用
利用数据开展大数据分析,辅助政府在政府治理、服务民生和产业发展等方面做智慧决策
4)立体的安全保障
数据管理安全:统一管理策略融入数据流;在端到端数据处理过程中,从数据归集,数据治理,数据共享与服务,每个环节都需要嵌入数据安全管控和数据安全策略的执行
数据隐私保护:基于用户授权、白名单(敏感用户)提供差异化的隐私策略;结合用户权限控制、应用权限控制,提供细粒度数据访问控制及隐私处理策略;提供多种去隐私处理能力,满足不同业务应用的需要:实时流处理、批处理、人机交互处理;提供覆盖整个数据生命周期的隐私保护
数据开放安全:数据资源安全分级、开放策略制定、数据授权机制以及安全合规
5)安全分析
职能监测、威胁预测、智能响应以及安全态势分析
三、建设方案
1、主数据建设框架
某省主数据管理建设方案框架主要包含主数据识别和采集、主数据清洗和转换、基础库建设和服务及数据标准管理、元数据管理、数据质量管理等几部分内容,如下图所示:
[图片上传失败...(image-b96000-1552979195518)]
某省主数据管理建设方案示意图
2、主数据识别和采集
2.1主数据识别、标准化
现阶段以国务院“群众办事百项堵点疏解行动”和《省级部门共享需求表》为目标,以“急用先行、重点优先”原则进行主数据识别,优先梳理出目前最迫切的和自然人、法人相关的主数据数据项,初步识别出某省政务主数据,如下表所示:
某省政务主数据示例1
[图片上传失败...(image-86602a-1552979195518)]
某省政务主数据示例2
[图片上传失败...(image-659a90-1552979195518)]
通过对某省主数据进行识别,对业务主数据来源进行了标准化:
[图片上传失败...(image-9d1a45-1552979195518)]
自然人基本信息血缘关系
在此基础上,依据某省政务活动的需要,编制某省自然人、社会法人基础库的数据元标准和通用代码标准,以规范自然人、法人主数据管理工作的开展,具体规范材料如下图所示:
[图片上传失败...(image-bdd222-1552979195518)]
政务大数据数据元规范材料
2.2主数据采集
按照对主数据的共享的时效性要求,可采用以下两种方案:
非实时主数据:对于共享实时性要求不高的主数据(如股权出质、行政处罚等),通过“政务共享交换平台”+“ETL”实现数据采集
实时主数据:对于共享实时性要求高的主数据(如个人基本信息、法人基本信息等),通过CDC、触发器等方式直接从数据源采集
3、主数据清洗和转换
3.1非实时数据
对于非实时数据,首先进入归集库,在归集库中存放和原始数据一致的镜像。归集库的数据需通过一定的清洗(如剔重、过滤无效数据等)和转换(如代码、数据格式转换等)后,形成符合技术和业务标准的数据进入中心库,以作为省大数据中心对外共享开放的最原始数据,清洗和转换可通过ETL工具实现。
3.2实时数据
实时数据因其低延时的要求,需使用实时流数据处理方法进行数据的清洗和转换后,直接进入中心库,实现的技术包括:Kafka+Flink。
4、基础库建设和服务
4.1基础库建设
政府数据来源广、共享需求大,如果对数据只做识别、集成、质量管控等操作,无法实现主数据的高效、高质共享。例如个人基本信息分别来自公安、民政、人社等机构,如果只是把这几个部门的数据分别集中到省中心,当共享个人的基本信息时,则需在共享时进行多表关联、剔重等操作,影响共享的效率,并增加了API开发的难度。因此,需依据业务需求,对采集来的主数据进行逻辑数据模型设计、整合打通数据,来减少数据冗余、提高数据的访问效率。下图为法人逻辑数据模型示例。
[图片上传失败...(image-a2a5eb-1552979195518)]
法人逻辑数据模型示例
4.2数据服务
自然人和法人基础库的数据,可通过API接口的方式对外提供服务。API网关可提供API快速开发和部署、负载均衡、流量控制、接口日志、接口服务质量管理等功能。各委办局使用统一的接口协议和数据标准进行自然人、法人主数据的访问。
5、数据治理
某省政务数据治理目标主要包含以下几个方面:
建立全省统一的自然人、法人库数据标准,并进行统一的管理、维护和查询引用
通过数据质量管理系统落实数据标准的落地,持续推进全省主数据数据质量的改进
通过元数据管理为主数据管理的各个数据处理阶段提供数据标准、数据映射关系和数据规则的描述,保障主数据管理的数据质量
6、解决方案关键点
因政府的特殊性,某省政府主数据管理与其它行业的主数据管理,存在许多的差异。在某省政府主数据管理解决方案中,针对某省的特点,因地制宜地采取了对应的措施。
6.1获取正确的主数据
某省政府自然人、法人主数据分散在省厅局、市委办局和区县等各级机构,各级机构都有自然人、法人的部分或全部数据,但普遍存在各机构数据不一致、冲突的问题,数据来源有库表、接口、文件等。为解决这些难点,采取了以下几个措施:
坚决推行“一数一源”,对于每一项主数据,依据各级机构的行政职能和业务属性来准确识别数据来源。发生数据不一致、冲突时,以数据源的数据为准(如自然人基本信息:自然人的身份证、姓名、性别等数据来源于公安;婚姻来源于民政;学历、教育信息来源于教育部门)
对于省垂直的系统,优先从省厅局获取数据,地市数据作为参考,对于地市水平的系统,优先从地市获取数据,省厅局数据作为参考
在“一数一源”基础上,使用上下级机构或平行机构的数据和数源单位进行主数据的交叉核对,以提高自然人、法人主数据的及时性、准确性
优先获取库表类型的数据,对于文件,在省中心内部转换为库表数据,接口主要用于关键数据项的核对(如通过民政厅的婚姻接口对自然人的婚姻状态进行核对)
6.2问题数据溯源、闭环
自然人、法人主数据对外用于社会公众、法人的政务活动,对内用于政府的辅助决策,如果数据本身出了问题,会造成不好的社会影响,同时还会带来政府公信力下降等不利的后果。在自然人、法人主数据管理过程中,需及时识别出数据的质量问题,并及时对问题进行过滤、溯源和修正。对发现的问题数据通过共享交换平台传回数源单位,同时通过工单推送等方式及时知会数源单位进行问题数据修正,形成一个完整的问题数据跟踪和处理流程的闭环。整体流程如下图所示:
[图片上传失败...(image-3f182a-1552979195517)]
数据管控治理平台
6.3共享交换集成
采集到省大数据中心的数据,经质量管理规则进行数据质量管控后,会发现大量的问题数据,需要考虑如何在政府网络环境下,如何将这些问题数据返回给数据源机构。就某省项目来说,通过把数据质量工单、问题数据与共享交换平台进行了集成,依托共享交换平台的传输通道,将问题数据回传到数据源机构的前置交换区,方便数据源机构对问题数据进行核查。
6.4单点登陆、工单集成
某省政务信息化除主数据管理外,还涉及到共享交换、目录、共享网站、统一维护管理平台、ETL等系统。所有系统在客户侧的入口都是共享网站,因此主数据管理系统需和共享网站进行集成,通过共享网站单点登陆进行账号安全认证,并将问题数据工单推送到统一维护管理平台。
6.5确保数据安全
自然人、法人的许多信息涉及到个人隐私、商业机密等,在共享时需要高度保证数据的安全性,以防止非法窃听、信息涉密等,对敏感信息做了以下几项安全保障:
事前:对身份证号、婚姻、个人财产等敏感信息进行梳理和识别,建立敏感信息识别模型
事中:对敏感信息的使用做脱敏处理,对确需使用敏感信息,在传输过程中进行加密处理
事后:数据服务对外共享数据时,对敏感信息增加数字水印,确保在数据涉密发生后,能追溯定位到涉密的部门、人员
来源: 数据工匠俱乐部、国脉电子政务网