关系模型与文档模型
关系模型:数据被组织为关系(realtions),SQL是最著名的关系模型,在SQL中称为表,每个关系都是元祖(turples)的无序集合。
文档模型:数据被组织为一对多的树状结构,形式类似于JSON。
NoSQL的诞生
NoSQL强调为“不仅仅是SQL”,采用NoSQL具有以下动机:更好的扩展性、开源的软件、支持关系模型不适合的查找。
对象-关系不匹配
数据存储于关系表中,而应用层代码与数据库之间需要一个笨拙的转换层,有时数据库的数据和代码之间无法良好匹配,称为阻抗失配,典型的阻抗失配场景如下:
如果利用关系模型存储一份简历,简历中通常包括地区、学校等信息,地区、学校等信息往往保存为一个tag,该tag作为其他表的外键,如果想知道该简历中的地区等信息,需要跨表查询,引起了更多的联结操作。这种存储形式与对象形式的不匹配就是阻抗失配。
相比于关系模式,JSON可以通过树状结构的数据取代SQL中向量形式的数据,减少了阻抗失配问题。
多对一与多对多关系
对于国籍、出生日期、学校等通过下拉列表或自动填充进行输入的信息,通过存储ID而非具体的文本字符串更加合理,可以避免错误输入以及表格中重复值的问题。ID对于人类没有直接的意义,更不易发生变更。
然而,通过存储ID需要表达一对多的关系,即一个条目被多个条目应用的情况 ,多对一关系适合通过关系型数据库表达,联表查询可以很好的完成此类工作,但是对于文档模型这种一对多的树状结构就很不适合,文档模型很不适合联结。
文档数据库是否在重演历史?
关系型数据库和文档型数据库(以及各类NoSQL)之间的优劣势引起过多次讨论,文档性数据库中数据被组织为树状,具有明显的层次,然而对于多对一、多对多关系支持较为困难,且不支持联结,为解决该问题,提出了多种方案,其中关系模型最为著名,另外也包括网络模型。
网络模型
网络模型中,数据被组织为图的形式,每条数据的格式更为灵活,每个记录可以有被多个节点引用,也可以引用多个节点,各个记录之间的引用更类似于指针,在网络模型中查找数据类似于进行图的遍历。
关系模型
关系模型定义了所有数据的格式,而关系(表)是元组的无序集合,关系数据库中,查询优化器可以自动优化查询的执行顺序,自动寻找访问路径(索引),如果向通过新的方式查询数据,就应当声明新的索引。
文档数据库的比较
文档数据库为层次模型,父记录中嵌套包含了所有记录,而关系数据库的数据存储于单独的表。
在表达多对一、多对多关系时,两者的手段类似,只不过关系型数据库通过外键,而文档数据库通过文档引用。
关系数据库与文档数据库的现状
文档数据库的优势在于模式更加灵活,局部的灵活性带来更为优秀的性能,而关系型数据库的优势在于联结操作,以及多对一、多对多关系的表达。
哪种数据库模型的应用代码更简单?
取决于应用程序的类型
文档模型中的模式灵活性
文档性数据库中不会对文档中的数据强制执行模式,可以灵活控制数据中的字段,形成异构的数据,在某些场合较为好用。
查询的数据局部性
对于文档性数据库,每次读取/修改需要读取/修改整个文档,但是如果只是需要其中部分字段进行读取或修改,那么当文档数据库较大时,产生了极大的不便。
文档数据库与关系数据库的融合
诸多关系型数据库增加了对于XML、JSON等支持。
数据查询语言
Web上的声明式查询
MapReduce查询
图状数据模型
属性图
Cypher查询语言
SQL中的图查询
三元存储与SPARQL
语义网
RDF数据模型
SPARQL查询语言
Datalog基础
小结
本章的讨论遵循以下逻辑:
- 关系模型
- 多对一关系
- 对象-关系不匹配
- 文档模型
- 图模型
- 数据查询语言