空间数据管理问题及解决方案
空间数据特征:空间位置、非结构化、空间关系、分类编码、海量数据等。
一般的数据库管理系统难以满足要求。
为了提高DBMS对空间数据的管理能力,国内外先后出现过:文件与关系数据库混合管理系统、全关系型空间数据库管理系统、关系型 数据库+空间数据引擎、扩展对象关系型数据库管理系统,以及面向对象空间数据库管理系统等多种解决方案。
目前国内外比较流行的解决方案是这两种:
- 关系型数据库+空间数据引擎
这是一种中间件解决方案,空间数据引擎负责组织空间数据的存储和读取,关系型数据库仅仅是存放空间数据的容器。 - 典型代表:ESRI的ArcSDE 和 MapInfo的SpatialWare
- 优点:访问速度快,简单易实现
- 缺点:空间操作和处理与数据库内核剥离,数据模型复杂,拓展困难,数据共享困难
- 扩展对象关系型数据库
这是一种新型数据库解决方案,既然传统关系型数据库难以管理非结构化数据,那就开发一种新型数据来实现它,即对象关系型数据库。 - 典型代表:Oracle 的 Oracle Spatial, IBM 的 DB2 Spatial Extender, Informix 的 Spatial DataBlade
- 优点:空间数据的管理与数据库融为一体,扩展方便,数据共享易实现
- 缺点:实现难度大,数据压缩困难,功能和性能与第一种方案尚存在差距
PostgreSQL是目前开源空间信息软件领域性能最优的数据库,构建在其上的空间对象扩展模块PostGIS使其成为一个真正的大型空间数据库。
从PostgreSQL到PostGIS
PostgreSQL中已经提供了一些空间特性:
- 定义了一些基本的集合实体类型
- 定义了一系列的函数和操作符来实现几何类型的操作和运算
- 引入空间数据索引
但其提供的空间特性还不能达到要求,主要表现在:
- 缺乏复杂的空间类型
- 没有提供空间分析
- 没有提供投影变换功能
这些问题的存在导致费时费力、产品复杂、性能低下,这些原因促成了PostGIS的实施。
在介绍PostgreSQL的部分中我们已经提到过,文件页(磁盘块)是物理存储的最小单位,默认大小是8k,最大可设置为2^15字节。
在PostgreSQL 7.1版本之前,支持的记录大小最大为8k,空间数据对象往往会超过8k,这一限制导致空间数据的存储无从谈起。
从7.1版本开始,PostgreSQL摒弃了这一限制,PostGIS的实现变为可能。
PostGIS特性与功能
PostGIS支持所有的空间数据类型
这些类型包括:点(POINT)、线(LINESTRING)、多边形(POLYGON)、多点 (MULTIPOINT)、多线(MULTILINESTRING)、多多边形(MULTIPOLYGON)和集合对象集 (GEOMETRYCOLLECTION)等。PostGIS支持所有的对象表达方法
比如WKT和WKB。PostGIS支持所有的数据存取和构造方法
如GeomFromText()、AsBinary(),以及GeometryN()等。PostGIS提供简单的空间分析函数
如Area和Length
同时也提供其他一些具有复杂分析功能的函数
比如Distance。PostGIS提供了对于元数据的支持
如GEOMETRY_COLUMNS和SPATIAL_REF_SYS
同时,PostGIS也提供了相应的支持函数
如AddGeometryColumn和DropGeometryColumn。PostGIS提供了一系列的二元谓词(如Contains、Within、Overlaps和Touches)用于检测空间对象之间的空间关系,同时返回布尔值来表征对象之间符合这个关系。
PostGIS提供了空间操作符(如Union和Difference)用于空间数据操作
比如,Union操作符融合多边形之间的边界。两个交迭的多边形通过Union运算就会形成一个新的多边形,这个新的多边形的边界为两个多边形中最大边界。
PostGIS还提供以下功能:
数据库坐标变换
数据库中的几何类型可以通过Transform函数从一种投影系变换到另一种投影系中。在OpenGIS中的几何类型都将SRID作为自身结构的一部分,但不知什么原因,在OpenGIS的SFSQL规范中,并没有引入Transform。球体长度运算
存储在普通地理坐标系中的集合类型如果不进行坐标变换是无法进行程度运算的,OpenGIS所提供的坐标变换使得积累类型的程度计算变成可能。三维的几何类型
SFSQL规范只是针对二维集合类型。OpenGIS提供了对三维集合类型的支持,具体是利用输入的集合类型维数来决定输出的表现方式。例如,即便 所有几何对象内部都以三维形式存储,纯粹的二维交叉点通常还是以二维的形式返回。此外,还提供几何对象在不同维度间转换的功能。空间聚集函数
在数据库中,聚集函数是一个执行某一属性列所有数据操作的函数。比如Sum和Average,Sum是求某一关系属性列的数据总和,Average 则是求取某一关系属性列的数据平均值。与此对应,空间聚集函数也是执行相同的操作,不过操作的对象是空间数据。例如聚集函数Extent返回一系列要素中 的最大的包裹矩形框,如“SELECT EXTENT(GEOM) FROM ROADS”这条SQL语句的执行结果是返回ROADS这个数据表中所有的包裹矩形框。栅格数据类型
PostGIS通过一种新的数据类型片,提供对于大的栅格数据对象的存储。片由以下几个部分组成:包裹矩形框、SRID、类型和一个字节序列。通过 将片的大小控制在数据库页值(32×32)以下,使得快速的随即访问变成可能。一般大的图片也是通过将其切成32×32像素的片然后再存储在数据库中的。
DBMS管理空间数据问题的发展方向
“关系型数据库+空间数据引擎”技术方案访问迅速,与GIS联系紧密,在应用中占有一定优势。问题是引擎与数据库内核独立,难以利用数据库系统中已有的成熟的管理、访问技术,在进一步发展上有致命弱点。
“面向对象空间数据库系统”技术方案从理论上来看,是最适用于空间数据的表达和管理的。但是由于在访问速度的问题上尚未有重大突破,在一段时间内都无法替代“对象关系型数据库系统”。
扩展对象关系型数据库管理系统技术方案尽管在性能上和“关系型数据库+空间数据引擎”技术方案仍有一定差距,但随着技术的发展,将是解决这一问题的发展方向。