知识图谱概述

什么是知识?

Knowledge is consider as facts about and relationships between these different objects

知识是人类通过观察学习思考有关客观世界的各种现象而获得和总结出的所有事实Facts,概念Concepts,规则或原则Rules&Principles的集合

我们说,获得某一项领域的知识,其实是了解这个领域事物之间的联系。比如我们知道苹果是红色的这个知识,就是了解了apple和red这两者之间的关联(the color is)

人工智能一个难以超越人类智慧的重要原因在于,人类能掌握知识,具有联想、联系万物的能力,但是这对于机器很难。

一个很有意思的问题,人为什么会有总结和联想能力?如何让机器自己找出事物之间的规律?

知识图谱

我们可以先观望一下google这篇official blogIntroducing the Knowledge Graph: things, not strings

比如这里个query [taj mahal] ,从表面上看,这就是两个单词。
但是我们知道, [taj mahal](泰姬陵)有着rich meaning.

a “graph”—that understands real-world entities and their relationships to one another: things, not strings.

image.png

Knowledge Graph是能理解真是世界实际事物关联(real-world entities connections)的intelligent model。

image.png

知识图谱(Knowledge Graph)是google于2012年提出的概念,本质是语义网络(Semantic Network)的知识库,也可理解为多关系图(Multi-relational Graph)。

图(Graph)由节点(Vertex)和边(Edge)构成。
多关系图(Multi-relational Graph)是包含多种类型节点与边的图。
实体是真实世界中事物的抽象,关系用来刻画实体间的联系。

中国古人的五行学说和易经八卦就是对世间万物进行高度抽象后的知识图谱。

image.png

知识图谱与问答系统

知识图谱可理解为事物关系图。常常用来做针对关联性问题的问答系统,如“比尔盖茨的妻子是谁?”,“该地点附近有什么好吃的?”。

实现第一条问答的前提是,我们已构件好包含“Bill Gates”和“Melinda Gates”实体,以及两实体关系(夫妻)的知识图谱(Knowledge Graph)。

执行搜索时,通过关键词提取("Bill Gates", "wife"),在知识库上匹配获得最终答案。

image.png

知识图谱问答系统和搜索引擎区别

搜索苹果的颜色是什么?搜索引擎会根据关键字给你找出一堆网页,让你自己筛选判断。
而知识图谱的问答系统会直接告诉你答案是红的。


image.png

知识图谱与搜索引擎结果优化 :从information engine到knowledge engine

Google于2012年5月16日发布了知识图谱(Knowledge Graph),目的是为了提升搜索引擎返回的答案质量,洞察用户查询背后的语义信息。
Google知识图谱的宣传语“things not strings”,即要发掘搜索字串背后隐藏的语义和事物信息。

如google加菲猫,搜索引擎会返回右边的知识卡片。包含查询对象和相关对象的信息。


image.png

知识图谱的表示和存取

知识图谱主要有两种存储方式:

  1. 基于RDF的存储,基本单位为SPO三元组。
  2. 基于图数据库的存储,表现形式多为属性图。
    目前来看,工业更多使用图数据库(如Neo4J)。学术领域则经常用RDF表示。
image.png

属性图(Property Graph)

现实世界,实体和关系拥有各自属性。如人的实体可拥有姓名,年龄属性。

属性图(Property Graph)用来表示带属性的知识图谱。
属性图贴近现实生活场景,能很好描述业务中的逻辑。


image.png

图数据库

图数据库是目前增长最快的数据库系统,Neo4j是目前使用率最高的图数据库,社区活跃,查询效率高,可惜不支持准分布式。

关系数据库和图数据库的区别

关系数据库的核心是一张张表,通过表的连接(外键),间接地维护实体间的关系,当关系一多的时候,表间的连续查询就会显得很繁琐。
图数据库则能非常直接简洁地表示出实体间的关系。

image.png

从某个角度而言,关系数据库更侧重实体的数据,图数据库更侧重关系的描述。


image.png

一个图数据库,最终会有着类似下图结构。


image.png

RDF

知识图谱可视为一条条知识构成,每条知识表示为一个SPO三元组(Subject-Predicate-Object)。

RDF(Resource Description Framework),即资源描述框架,是W3C制定的,用于描述实体/资源的标准数据模型。

image.png

参考资料 :
https://www.jiqizhixin.com/articles/2018-06-20-4
https://zhuanlan.zhihu.com/p/31726910
https://www.2cto.com/database/201703/614201.html
https://googleblog.blogspot.com/2012/05/introducing-knowledge-graph-things-not.html

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容