一文了解知识图谱常见的知识表示,图谱存储和查询方法

对于知识图谱构建,有两个问题是永远绕不掉的。一个是知识图谱的知识表示,一个是知识图谱的存储方式。这两个问题大家也比较关注,而且知识图谱的表示跟知识图谱的存储还是有一定的相关性。知识表示,可以理解为知识图谱逻辑层面的表示,即数据模型。从人的角度对知识图谱数据进行描述。物理层面的存储:从计算机的角度对数据进行组织,两者密切相关。所以就把两者放在一起做个总结。知识图谱有多种表示方式,我们只在此讨论图谱的图模型表示法和三元组表示。

image

<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">知识图谱逻辑层与数据层关系</figcaption>

一 知识表示

1.知识图谱三元组表示法

经典三元组模型比较简单,只讨论了二元关系,在实际应用中要基于三元组拓展时空知识表达能力,多模态等。需要将其拓展成四元组,五元组

1)RDF

image

RDF就是资源描述框架,可以理解成一种资源表示的模板,就是一种知识表达形式。就是只有实体及关系没有概念(domain和range).形式上也就是大家最常见的<实体-关系/属性-实体/属性值>三元组。

RDF是一种逻辑模型,要进行存储还要进行序列化。RDF的序列化方式有N-Triples,Turtle,JSON-LD等形式。

但是RDF本身有其问题:Rdf只能表示实体与实体之间的关系,属性。但是没法定义实体的概念,概念具有的属性。但是不论是在智能的概念上,还是在现实的应用当中,概念都是相当重要的;也是知识图谱本身十分强调的。

2)RDFs

RDFschema就是为了解决RDF表示法,无法表示概念的缺陷的。RDFschema像是在RDF上层加了个外衣。定义了概念,概念的属性,属性值,概念与概念之间的关系以及约束关系。具体定义的schema的存在也让图谱具备了一些基于本体的推理能力。

3)OWL

OWL,即“Web Ontology Language”。是对RDFs的一个扩展,添加了额外的预定义词汇。使其具备更强的推理能力。

复杂关系表示:经典三元组模型只能对于一些复杂的知

1)多元关系

比如典型的事件描述场景

2)时空知识表示

需要五元组来表示。例如:公元前407年柏拉图在雅典跟随苏格拉底学习。为了表达这个,把三元组拓展成5元组<亚里士多德,导师,柏拉图>。被拓展成<亚里士多德,导师,柏拉图,(北纬38,东经23),公元前407年>的五元组。

3)多模态的表示

2.图模型

1.有向图

image

RDF模型可以天然的转化成有向图模型。所以基于RDF模型的图谱,也可以通过转化,存到图数据库中。

2.属性图

属性图示目前被图数据库业界采纳最广的一种图数据模型。属性图由节点集和边集组成,且满足如下性质:

1)每个节点具有唯一的id

2)每个节点具有一组属性,每个属性是一个键值对;

3)每条边具有唯一的id

4)每条边具有一个标签,表示联系

5)每条边具有一组属性,每个属性是一个键值对

二 知识图谱存储

1.关系表方式存储

可以选择的数据库有传统的关系型数据库,noSql数据库例如mongoDB。优点:简单,方便。缺点:需要做多次自连接,对于查询复杂的关系,效率会比较低。

2.图数据库

目前业界主要利用属性图模型来构建的。基于图的存储方式通常会构建基于图结构的索引。这类索引编码了图上的结构信息,因此对于复杂查询(特别是表达复杂的子图的查询)来说十分高效。但是在简单查询如直接查询某个实体的特定属性值方面性能优势并不明显,对于属性值多的节点,可能还比较慢。当然也有一些优化方法,比如把属性存储在mongoDB。查属性时通过mongoDB去查。

3.分布式存储

在进行分布式知识图谱管理时,不同的应用有着不同的需求,有些应用要求较高的可扩展性,但是对查询效率要求不高,对于这类应用,可以基于已有的云计算平台来搭建分布式知识图谱存储系统。而有些应用对查询效率要求很高,在这种情况下,系统往往需要自行划分数据,并依据划分结果将知识图谱数据分布到不同的机器上。具体的,大家可以去具体调查一下相关厂商的解决方案。

三 图谱查询语言

1.SPARQL

是专门针对RDF模式表示的图谱的查询语言。是一种类SQL的语言。SPARQL 能够让我们通过选择、抽取等方式从被表示为 RDF 的知识中获取特定的部分。使用sparkql需要将三元组存储于三元组存储库(triple store)。当数据被加载进三元组存储库之后,就可以使用 SPARQL 协议来发送 SPARQL 查询去查询。

2.Cypher

Cypher 是一个描述性的图形查询语言,允许不必编写图形结构的遍历代码对图形存储有表现力和效率的查询,和 SQL 很相似。大家熟悉的neo4j的语言就是cypher。

3.Gremlin

Gremlin是 Apache ThinkerPop 框架下的图遍历语言。Gremlin 可以是声明性的也可以是命令性的。虽然 Gremlin 是基于 Groovy 的,但具有许多语言变体,允许开发人员以 Java、JavaScript、Python、Scala、Clojure 和 Groovy 等许多现代编程语言生编写 Gremlin 查询。

查询语言并不是最关键的部分,其实只要选用跟对应数据库相关的语言就行。写起来简单好用当然更好,但是并不对上层应用起什么实质的影响。

四 图数据库与图引擎

图数据库与图计算引擎是不同的概念不同。图数据库,关注点在于怎么存储,而图引擎,关注点在怎么用这些数据,针对这些数据进行查询、分析的应用。广泛应用于互联网应用、社交网络,知识图谱应用、金融风控应用等。

五 数据库的选择

图谱数据的数据库选择主要考虑图谱操作的复杂度。图谱上的操作越是复杂,图数据库的必要性越是明显。图谱上的全局计算(比如平均最短路径的计算),图谱上的复杂遍历,图谱上的复杂子图查询等等都涉及图上的多步遍历。图上的多步遍历操作如果是在关系数据库上实现需要多个联结(Join)操作。多个联结操作的优化一直以来是关系数据库的难题。图数据库系统实现时针对多步遍历做了大量优化,能够实现高效图遍历操作。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,864评论 6 494
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,175评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,401评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,170评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,276评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,364评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,401评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,179评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,604评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,902评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,070评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,751评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,380评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,077评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,312评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,924评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,957评论 2 351