随着互联网不断的发展,传统的关系型数据库如oracle,mysql已经难以支撑现下大数据量,高并发的场景了。于是,NoSQL横空出世,有像cassandra这样的column-based,像MongoDB这样document-based。今天在这里猎奇的是一个graph-based的数据库,Neo4j。
什么是图数据库
图数据库名字的由来其实与其在底层的存储方式有关,Neo4j底层会以图的方式把用户定义的节点以及关系存储起来,通过这种方式,可是高效的实现从某个节点开始,通过节点与节点间关系,找出两个节点间的联系。
从这段描述中可以猜得到,在Neo4j中最重要的两个元素就是节点和关系。说到节点和关系,就必须引出一个非常重要的概念,属性图模型(Property Graph Model)。如下所示:
- 一个图中会记录节点和关系
- 关系可以用来关联两个节点
- 节点和关系都可以拥有自己的属性
- 可以赋予节点多个标签(类别)
接下来用一个实际的例子来解释下这个模型,最近在虎扑上被吹捧的特别厉害的恩比德大帝曾经爆出过他自己PS的一张图,隔空示爱蕾哈娜,参考下图
我们尝试用Property Graph Model来表示这样的一个关系。
上图中定义了两个节点,恩比德和蕾哈娜,类别分别是球员和歌手,分别拥有身高,国籍以及生日,血型属性。两个节点之间通过一个“喜欢”关系关联,“喜欢”关系拥有自己的一个属性“自从”,属性值为2014年。
Neo4j数据库的优势
- 在创建节点的时候就已经把关系给建立起来,避免了在复杂查询场景下的处理
- 由于底层直接以图的形式存储节点和关系,在查询的时候可以使时间复杂度保持在常数级别。
- 基于JVM实现
- 提供一套易于理解的查询语言Cypher以及内置的可视化UI
- 很好的支持ACID,有事务机制
Neo4j安装及实践
为了方便大家搭建环境,本文还是会用Docker来运行一个包含Neo4j的容器,Docker下载安装参考这里。在下文中会根据之前引用的恩比德大帝的例子来介绍Cypher语句。
从Docker Hub上pull一个Neo4j的镜像
docker pull neo4j
启动一个Neo4j的容器, 需要在你的Home目录下建立一个/neo4j/data文件夹
docker run --publish=7474:7474 --publish=7687:7687 --volume=$HOME/neo4j/data:/data neo4j
在浏览器中访问loalhost:7474可以看到如下的UI界面,输入默认用户名和密码neo4j即可连接到neo4j数据库。
创建一个球员节点恩比德
CREATE (embiid: PLAYER {name: 'Embiid', height: '2.13m', nationality: 'Cameroon'})
可以通过点击Neo4j左边的侧边栏中的PLAYER标签看到刚才新建的节点。
创建歌手蕾哈娜节点以及“喜欢”关系
MATCH (embiid:PLAYER{name:'Embiid'})
MERGE (embiid)-[:LIKES{since:'2014'}]->(Rihanna: SINGER{name:'Rihanna', dob:'1988/2/20',bloodType:'O'})
创建完以后UI如下图所示,图中可以看出新建的蕾哈娜节点和之前的恩比德节点通过LIKES关系关联了起来
查询返回所有喜欢蕾哈娜的PLAYER节点
MATCH(p:PLAYER)-[:LIKES]->(:SINGER{name:'Rihanna'})
RETURN p;
Neo4j常用使用场景
- 社交网络
- 基于图的搜索
- 推荐引擎
- 企业基础设施及网络架构
- 等等等
结语:
本文简单扼要的介绍了Neo4j这个比较小众的数据库的概念和使用方法,相信在这个数据为王的时代,图数据库可以从其它各类数据库中脱颖而出,获得一席之地。