浅谈图数据库

1、什么是图数据库

       先看下图,关系数据库是以二维表方式存储数据,而图数据库作为NoSQL(非关系型数据库)的一种,是基于图模型,存储实体及实体间关系的一项技术

        图数据库的关键要素是两个:节点(实体,通常也包含实体的属性),线(关系)。以下图为例,节点就是具体的人,而线就是人之间的关系。

        图数据库基于图模型以一种直观的方式存储和展示这些关系。因为是基于事物关系的模型表达,图因此也具有天然的可解释性。所以被广泛应用于关联信息的搜索,以及社会网络的分析场景中。

2、图数据库对比传统关系数据库的优势

将示例图扩展

.高性能

以查询要求“张旻”与“何竹”是否有亲属关系为例,关系型数据需要对全表递归扫描关联,且扫描次数需要依赖于穷举后的次数,而如果是图数据库,输入节点名称“张旻”与“何竹”,并根据图连通性(最小联通算法)判断即可获得结果。

这是因为在关系信息的处理场景下,随着数据量的增多和关系深度的增加,关系型数据库由于查询时需要记录间甚至表之间连接操作,从而导致较大的查询和关联成本,性能较差。而图数据库是在存储结构上直接把节点及其关联节点连接在一起。这样,当需要查询一个节点的关联节点时,直接从节点循着链接出发去寻找就可以了,而不需要遍历所有节点,大大节省了查询时间。

简单来说,关系型数据库会随着查询层次的加深、数据量的加大,查询性能会逐渐恶化,使用图数据库查询时,查询工作量仅与被查询的节点关系数有关,而与全局节点数无关,这样当全局节点数变多、关系变得更复杂时,子图的查询工作量不会有太大变化。另外,即使是查询层次变深,对于图数据库来说,只是多查了一层子图,逻辑比较清晰,不会像关系型数据库那样增加遍历工作量。

.直观

图模型是基于事物关系的模型,更符合人们的直观理解,也具备天然的可解释性。

3、图数据库与知识图谱

       知识图谱是2012年,由Google提出,其本质是大规模的语义网络,包含实体、属性及其之间的各种语义关系。而图数据库是知识图谱的存储引擎,并且是海量关系数据的计算平台。

       知识图谱最早应用在搜索的优化中,先看下图,相对于百度获得的更偏热点的搜索结果,Magi更多是将特朗普作为一个实体,返回其关系网络,及个人标签卡片,并且标注出每条关系的网页来源,其背后即是通过对文本解析后获得结构化数据,并结合机器学习,深度挖掘实体之间的关系,从而返回得到实体的标签、关系网络。

       简言之,知识图谱是将知识,以及知识挖掘的过程,做到了可视化,从而具备可解释性。

       安利一下网站:https://magi.com/

4、有哪些图数据库工具

这一段不展开做介绍,网上有相应的测评结果:https://www.1data.info/content-643.html

主要提一下Neo4j,其在单机笔记本电脑上即可安装测试,对于新手,有以下特点:

(1)支持SQL查询语言  Cypher

(2)遵循属性图数据模型

(3)支持UNIQUE约束

(4)支持通过Neo4j数据浏览器对数据库进行操作

(5)支持完整的ACID(原子性,一致性,隔离性和持久性)规则

(6)支持查询的数据导出到JSON和XLS格式,并支持Load等方式导入数据

5、neo4j的应用尝试

以网上获取到的电影数据为例(原始文件需要的线下可以给)

实体、关系

这份数据里,最直观的实体是电影,演员,在这里对数据做结构化处理后,获取到4000+电影,33000+演员

而演员在不同的电影里的角色不同,有的甚至是导演,而角色只会产生在电影和演员两个实体之间,即为关系,获取到关系在8万个关系对

这里对于实体的属性,电影选择了电影名称,猫眼url,电影类型,上映时间和地点,拍摄方,以及获取奖项;对于演员,由于原始数据信息较少,所以属性只是将做过的角色作为一项技能属性。


导入neo4j的语句如下:

LOAD CSV WITH HEADERS FROM "file:///film.csv" AS line

CREATE (:film { film:line.film, url:line.url, type:line.type, take:line.take, duration:line.duration, area:line.area, showtime:line.showtime, prize:line.prize})

LOAD CSV WITH HEADERS FROM "file:///actor.csv" AS line

CREATE (:actor { actor:line.actor, role:line.role})

展示

由于大部分电影涉及到大量演员,展示的图过于复杂,现将图的范围缩小,根据特定演员去查询子表

由于近期郑爽比较火,所以查她,其演过5部电影,均是以演员身份

其跟张恒吵得很凶,那他们两个是怎么认识的呢,用以下语句查询两节点之间最短路径,发现闫妮和张恒2018年合作了电影,而闫妮和郑爽之间合作了画壁,那么张恒和郑爽有没有可能是通过闫妮认识的呢?(此张恒可能并非彼张恒,仅做测试而已)

MATCH n=allshortestPaths((a:actor {actor:"郑爽"})-[*]-(b:actor {actor:"张恒"})) return n

6、探讨

以上仅是一个粗略的介绍,大家可以想一下,对于产品创新领域,能否将现有成熟的产品或者商业模式进行拆解,如下:

1、实体:商业模式中的参与方,产品中的工具或者具体技术

2、关系:参与方(公司或者团队或者个人)与成功商业创新之间的关系,具体技术或者工具与失败or成功产品之间的关系

3、最后以时间轴,进行滑动窗口分析,是不是可以看出行业在不同阶段,市场上对于创新所需元素的变化?

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,723评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,003评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,512评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,825评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,874评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,841评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,812评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,582评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,033评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,309评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,450评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,158评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,789评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,409评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,609评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,440评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,357评论 2 352

推荐阅读更多精彩内容