1基本概念:
2012年Google提出“知识图谱”这一概念,伴随大数据与人工智能技术的飞速发展,知识图谱的内涵也越来越丰富。
1.1知识图谱的狭义概念:
“知识图谱”最开始特指Google公司为了支撑其语义搜索而建立的知识库。随着知识图谱技术应用的深化,知识图谱已经成为大数据时代最重要的知识表示形式。狭义的知识图谱特指一类知识表示,本质上是一种大规模的语义网络,包含实体,概念及其之间的各种语义关系。
如下图所示,就是一个知识图谱的片段,其中柏拉图是一个实体,它是一个哲学家(概念),他的导师是苏格拉底。
理解知识图谱概念,最重要的两点:
1 其是语义网络
2其是大规模的
那么什么是语义网络?
语义网络是一种以图形化的形式通过点和边表达知识的方式,其基本组成要素是点和边。语义网络中的点可以是实体,概念和值。
什么是实体?
实体,也被称为对象,或实例。黑格尔在《小逻辑》一书里曾经给实体下过一个定义:“能够独立存在的,作为一切属性的基础和万物本源的东西。”也就是说,实体是属性赖以存在的基础,并且必须是独立不依附其他东西存在的,比如说身高,仅仅说身高是没有意义的,而必须说某个具体的人的身高,这才是有明确所指且有意义的。
什么是概念?
概念,又称为类别,类等,比如“哲学家”,不是指某一个特定的哲学家,而是指一类人,这一类人有着相同的描述模版,构成一个类或者概念。
概念所对应的动词,是“概念化”,或者”范畴化“。概念化一般指识别文本中的相关概念的过程。范畴化在一些场景下指实体形成类别的过程。有时,范畴化也指将特定实体归到相应类别的过程。比如柏拉图归类到唯心主义哲学家这一类别。
什么是值?
每个实体都有一定的属性值,属性值可以是常见的数值类型,日期类型,或者文本类型。比如希腊共和国的国土面积为“131 957平方公里”,这是数值类型;柏拉图的出生年份为“公元前427年”,这是日期类型;柏拉图的英文译名为“plato”,这是文本类型。
知识图谱的边可以为属性与关系两类。属性描述实体某方面的特性,比如人的出生日期,身高,体重等,属性是人们认知世界,描述世界的基础。关系则认为是一类特殊的属性,当实体的某个属性值也是一个实体时,这个属性实质上就是关系,比如某个人的母亲,是一个特定的人物实体,因此“母亲”可以认为是一种关系。
语义网络中的边按照其两端节点的类型可以分为概念之间的子类(subclassOf)关系,实体与概念之间的实例(instanceOf)关系,以及实体之间的各种属性与关系,例如,“柏拉图”是”哲学家“概念的一个实例,”唯心主义哲学家“是“哲学家”一个子类。“苏格拉底”与“柏拉图”是师生关系,柏拉图的代表作品之一是“《理想国》”