数据连接
- 各行业数据、政府业务数据、地区城市运行数据、互联网数据,从离线、分散、零星采集,转向随时在线、逻辑集中、统一采集。
- 不同类型、不同协议的物联网感知设施充分部署,促进物理空间、网络空间、社会空间边界融合下的数据流动,以信息资源调配物质资源,改善社会资源,打通虚实世界,形成感知-认知-操控-反馈的闭环机制;
数据汇聚
- 在数据持续连接基础上,不断丰富形成数据汇聚三类层次;
- 全量数据:物理空间、网络空间和社会空间数据的集合,
- 全域数据:在全量数据基础上,增加时间维度,形成时空数据,增加事件的轨迹、演变过程;
- 全息数据:在全域时空数据基础上,增加数据之间的关联关系,形成主对象为核心的,数据融合、关联网络,打破因数据割裂造成的天然孤岛,形成关联数据的叠加价值。
- 数据汇聚的目标成效,是确保随时可进行抽取、关联与分析。与汇聚的物理地址无关,因为数据汇聚既可以逻辑集中,物理分散存储,也可以物理集中存储。
- 前者,务必要按照统一规范和标准,对分散在不同物理地址的数据独立清理,形成统一数据格式,随时可供程序调用。这种方式要求各分散单元有数据清洗能力,或者通过第三方统一进行清洗。
- 后者,可以将所有数据库统一上云,形成天然的物理集中,不过云中存储的数据依然属于不同租户,每个租户存留的数据,并不天然互通共享,依然还需经过清洗处理后,方可统一调度。
- 一般而言,逻辑集中物理分散存储更符合数据处理方向。但实际操作中,尤其是地方政府,往往采用统一上云的方式集中存储,由专门的数据资源机构,如大数据资源管理局等,进行统一加工处理,这种方式更有利于工作推进,否则分散存储在不同物理地点的数据,依然被各部门独立把持,无法发挥数据效益。
贵州案例 :明确集中存储更有利于数据统一调度;
上海案例: 通过对数据资源使用的地方立法,要求全量数据的集中归集;
- 数据汇聚过程中,有两类做法,
- 第一类是构建全量数据资源目录,划分其中一部分作为可共享的资源目录,对这部分数据资源进行独立存放。
- 优势是数据资源目录梳理有基础,对业务的理解和依赖相对较小,每当有新业务和新共享需求时,再定期更新共享资源目录。
- 劣势是全量数据的梳理工作量大,可共享的资源目录更新不及时。
- 第二类是按照业务主对象,形成多个主数据库,破解过去数据属性被不同部门、不同行业天然分割的困局。e.g 人事数据,包括党建关系、调动关系、职称评定、项目业绩等,可以以单一的个人身份作为主对象,构建人事主数据库。
- 优势:主数据库天然有数据之间的依存关系,与业务息息相关,
- 劣势:各业务部门要明确形成主对象档案,对业务部门提出专业要求。