对于知识图谱构建,有两个问题是永远绕不掉的。一个是知识图谱的知识表示,一个是知识图谱的存储方式。这两个问题大家也比较关注,而且知识图谱的表示跟知识图谱的存储还是有一定的相关性。知识表示,可以理解为知识图谱逻辑层面的表示,即数据模型。从人的角度对知识图谱数据进行描述。物理层面的存储:从计算机的角度对数据进行组织,两者密切相关。所以就把两者放在一起做个总结。知识图谱有多种表示方式,我们只在此讨论图谱的图模型表示法和三元组表示。
<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">知识图谱逻辑层与数据层关系</figcaption>
一 知识表示
1.知识图谱三元组表示法
经典三元组模型比较简单,只讨论了二元关系,在实际应用中要基于三元组拓展时空知识表达能力,多模态等。需要将其拓展成四元组,五元组
1)RDF
RDF就是资源描述框架,可以理解成一种资源表示的模板,就是一种知识表达形式。就是只有实体及关系没有概念(domain和range).形式上也就是大家最常见的<实体-关系/属性-实体/属性值>三元组。
RDF是一种逻辑模型,要进行存储还要进行序列化。RDF的序列化方式有N-Triples,Turtle,JSON-LD等形式。
但是RDF本身有其问题:Rdf只能表示实体与实体之间的关系,属性。但是没法定义实体的概念,概念具有的属性。但是不论是在智能的概念上,还是在现实的应用当中,概念都是相当重要的;也是知识图谱本身十分强调的。
2)RDFs
RDFschema就是为了解决RDF表示法,无法表示概念的缺陷的。RDFschema像是在RDF上层加了个外衣。定义了概念,概念的属性,属性值,概念与概念之间的关系以及约束关系。具体定义的schema的存在也让图谱具备了一些基于本体的推理能力。
3)OWL
OWL,即“Web Ontology Language”。是对RDFs的一个扩展,添加了额外的预定义词汇。使其具备更强的推理能力。
复杂关系表示:经典三元组模型只能对于一些复杂的知
1)多元关系
比如典型的事件描述场景
2)时空知识表示
需要五元组来表示。例如:公元前407年柏拉图在雅典跟随苏格拉底学习。为了表达这个,把三元组拓展成5元组<亚里士多德,导师,柏拉图>。被拓展成<亚里士多德,导师,柏拉图,(北纬38,东经23),公元前407年>的五元组。
3)多模态的表示
2.图模型
1.有向图
RDF模型可以天然的转化成有向图模型。所以基于RDF模型的图谱,也可以通过转化,存到图数据库中。
2.属性图
属性图示目前被图数据库业界采纳最广的一种图数据模型。属性图由节点集和边集组成,且满足如下性质:
1)每个节点具有唯一的id
2)每个节点具有一组属性,每个属性是一个键值对;
3)每条边具有唯一的id
4)每条边具有一个标签,表示联系
5)每条边具有一组属性,每个属性是一个键值对
二 知识图谱存储
1.关系表方式存储
可以选择的数据库有传统的关系型数据库,noSql数据库例如mongoDB。优点:简单,方便。缺点:需要做多次自连接,对于查询复杂的关系,效率会比较低。
2.图数据库
目前业界主要利用属性图模型来构建的。基于图的存储方式通常会构建基于图结构的索引。这类索引编码了图上的结构信息,因此对于复杂查询(特别是表达复杂的子图的查询)来说十分高效。但是在简单查询如直接查询某个实体的特定属性值方面性能优势并不明显,对于属性值多的节点,可能还比较慢。当然也有一些优化方法,比如把属性存储在mongoDB。查属性时通过mongoDB去查。
3.分布式存储
在进行分布式知识图谱管理时,不同的应用有着不同的需求,有些应用要求较高的可扩展性,但是对查询效率要求不高,对于这类应用,可以基于已有的云计算平台来搭建分布式知识图谱存储系统。而有些应用对查询效率要求很高,在这种情况下,系统往往需要自行划分数据,并依据划分结果将知识图谱数据分布到不同的机器上。具体的,大家可以去具体调查一下相关厂商的解决方案。
三 图谱查询语言
1.SPARQL
是专门针对RDF模式表示的图谱的查询语言。是一种类SQL的语言。SPARQL 能够让我们通过选择、抽取等方式从被表示为 RDF 的知识中获取特定的部分。使用sparkql需要将三元组存储于三元组存储库(triple store)。当数据被加载进三元组存储库之后,就可以使用 SPARQL 协议来发送 SPARQL 查询去查询。
2.Cypher
Cypher 是一个描述性的图形查询语言,允许不必编写图形结构的遍历代码对图形存储有表现力和效率的查询,和 SQL 很相似。大家熟悉的neo4j的语言就是cypher。
3.Gremlin
Gremlin是 Apache ThinkerPop 框架下的图遍历语言。Gremlin 可以是声明性的也可以是命令性的。虽然 Gremlin 是基于 Groovy 的,但具有许多语言变体,允许开发人员以 Java、JavaScript、Python、Scala、Clojure 和 Groovy 等许多现代编程语言原生编写 Gremlin 查询。
查询语言并不是最关键的部分,其实只要选用跟对应数据库相关的语言就行。写起来简单好用当然更好,但是并不对上层应用起什么实质的影响。
四 图数据库与图引擎
图数据库与图计算引擎是不同的概念不同。图数据库,关注点在于怎么存储,而图引擎,关注点在怎么用这些数据,针对这些数据进行查询、分析的应用。广泛应用于互联网应用、社交网络,知识图谱应用、金融风控应用等。
五 数据库的选择
图谱数据的数据库选择主要考虑图谱操作的复杂度。图谱上的操作越是复杂,图数据库的必要性越是明显。图谱上的全局计算(比如平均最短路径的计算),图谱上的复杂遍历,图谱上的复杂子图查询等等都涉及图上的多步遍历。图上的多步遍历操作如果是在关系数据库上实现需要多个联结(Join)操作。多个联结操作的优化一直以来是关系数据库的难题。图数据库系统实现时针对多步遍历做了大量优化,能够实现高效图遍历操作。