一.简介
Neo4j是基于图论实现的一种新型NoSQL数据库。图数据模型包括:属性图,超图和三元组。
一.免索引邻接
Neo4j的重要特点就是保证了关系数据的查询速度。为什么关系会查询快速呢,就是因为免索引邻接属性:数据库中的每个节点都会维护与它相邻节点的引用。这相当于每个节点都与它相邻节点建立了微索引,这比全局索引的代价小很多。这意味着查询时间与图的规模无关,只与它附近节点的数量成正比。
相对于RDBMS的关系查询的改进:
1)免索引邻接使用遍历物理关系的方法查找,比全局索引来说代价小很多。查询一个索引的时间复杂度一般为0(log(n)),而遍历物理关系的时间复杂度仅为0(1)。
2)RDBMS当索引建立后,试图反向遍历时,建立的索引就会不起作用了。免索引邻接机制就不会有问题。
二.Neo4j底层数据结构
从宏观来讲:
neo4j只有节点和关系两种数据类型。
1)节点
节点存储文件用来存储节点的记录,文件名为neostore.nodestore.db。节点记录的长度为固定的大小,9字节。格式为:Node:inUse+nextRelId+nextPropId.
inUse:1表示该节点被正常使用,0表示该节点被删除。
nextRelId:该节点的下一个关系Id.
nextPropId:该节点的下一个属性Id.
固定字节长度的方式可以让我很快计算出不同ID的存储位置。
2)关系
关系存储文件用来存储关系的记录,文件名为neostore.relationshipstore.db。跟节点的存储一样,关系存储区的记录大小也是固定的。格式为:Relationshop:inUse+firstNode+secondNode+relType+firstPreRelId+secondPrevRelId+secondNextRelId+nextPropId。
inUse,nextPropId:作用同上。
firstNode:当前关系的起始节点。
secondNode:当前关系的终止节点。
relType:关系的类型
firstPrevRelId,firstNextRelId:起始节点的前一个和后一个关系的ID.
secondPrevRelId,secondNextRelId:终止节点的前一个和后一个关系ID.
3)这样的数据结构的好处:
Neo4j节点和关系的存储文件只关系图的基本存储结构而不是属性数据。这两种记录都使用固定大小的记录,能方便根据ID快速计算存储位置。并且节点和关系记录变得相当轻量级。
4)属性的存储
属性的记录是存储在neostore.propertystore.db文件中。与节点和关系记录一样,也是固定长度。每个属性包含4个属性块和属性链中下一个属性ID.属性链是单向链,关系链是双向链。属性索引文件主要用于存储属性的名称,属性索引的值部分存储的是指向动态内存的记录或者内联值,短字符串和短数组会直接内联在属性存储记录中。当长度超过属性记录的Propblock长度限制后,会单独存储在其他的动态存储文件中。