如何构建知识图谱? | “人工智能+区块链”科普第7问

上一问中我们给大家介绍了知识图谱的历史,了解到知识图谱,是结构化的语义知识库,是用来迅速描述物理世界中的概念及其相互关系的一种技术。通过降低数据粒度,聚合大量知识,实现知识的快速响应和推理。

在我们深入了解知识图谱的构建之前,让我们先来看一下它长什么样子!

如图所示,你可以看到,如果两个节点之间存在关系,他们就会被一条无向边连接在一起,那么这个节点,我们就称为实体,它们之间的这条边,我们就称为关系。

知识图谱的基本单位,便是“实体‑关系‑实体”构成的三元组,同时这也是知识图谱的核心。

知识图谱的构建

构建知识图谱是一个不断迭代更新的过程。而每一轮的迭代都是通过信息抽取、知识融合、知识加工这三个阶段来完成的。

知识图谱的体系构架

懵逼树上懵逼果,懵逼树下有个我。(一脸懵逼??)

哈哈不要慌,我们一起慢慢来捋一下。

首先我们有一大堆的数据,这些数据可能是结构化的、非结构化的以及半结构化的。结构化数据是指可以使用关系型数据库表示和存储的数据。典型的例子如关系数据库;非结构化数据,顾名思义,就是没有固定结构的数据。各种文档、图片、视频、音频等都属于非结构化数据;而半结构化数据 就是介于这两者中间,常见的有XML、JSON、HTML和CSV文件等等。

1.信息抽取

结构化的数据可以直接进行知识融合。而非结构化、或者半结构化的数据就需要通过一系列自动化或半自动化的技术手段,提取出数据内所有实体、属性以及实体间的相互关系,这个过程我们称之为信息抽取。

随便举个例子:王健林谈儿子王思聪:他算富二代里比较有商业头脑的。

信息抽取的结果包括:王健林、王思聪两个实体;两个实体之间的关系(儿子);以及王思聪这个实体从属于富二代这个概念。

2.知识融合

如上所述,通过信息抽取,我们获得了大量碎片化的知识表达。接下来,我们还需要对这些知识进行整合,消除其中的矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等等。这个过程我们称之为知识融合。

这个过程很像我们小时候拼的拼图。大量的知识就是拼图碎片,他们散乱无章,其中有很多重复的,也有从其他拼图里跑来的错误碎片。我们需要把他们重新归置,剔除那些重复的、无效的信息,纠正那些错误的,最终拼成一副完整的画面。

这个过程需要大量的人工参与和甄别


3.知识加工

在前面,我们已经通过信息抽取,从原始语料中提取出了实体、关系与属性等知识要素,并且经过知识融合,消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达。

然而事实本身并不等于知识。要想最终获得结构化,网络化的知识体系,还需要经历知识加工的过程。

知识加工主要包括3方面内容:本体构建、知识推理和质量评估。

1) 本体构建

本体简单来说就是一种概念框架,如“人”、“事”、“物”等。 自动化本体构建过程包含三个阶段:①实体并列关系相似度计算;②实体上下位关系抽取;③本体的生成。

举个栗子。当知识图谱刚得到“阿里巴巴”、“腾讯”、“手机”这三个实体的时候,可能会认为它们三个之间并没有什么差别,但当它去计算三个实体之间的相似度后,就会发现,阿里巴巴和腾讯之间可能更相似,和手机差别更大一些。

这就是第①步的作用,完成了第②步实体上下位关系的抽取以后,知识图谱就会得到里巴巴和腾讯,都是“公司”这个概念下的细分实体,它们和手机根本就不隶属于一个类型,无法比较。

从而完成第③步本体的生成,如下图:

2) 知识推理

在我们完成了本体构建这一步之后,一个知识图谱的雏形便已经搭建好了。但到目前为止这些知识图谱之间的大多数关系都是残缺的,那么接下来,我们就可以使用知识推理技术去完成进一步完善了。

这一块的算法基本可以分为基于逻辑的推理、基于图的推理和基于深度学习的推理三大类。

3) 质量评估

质量评估也是知识库构建技术的重要组成部分,这一部分存在的意义在于:可以对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识库的准确率。

对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量。

哎麻,知识图谱终于构建完毕了。长舒一口气!

先别急,还不止如此呢!经过千辛万苦得到的知识图谱,接下来还要经过接连不断地学习和迭代更新,不停的完善和补充最终才能够进入到应用层面。而知识图谱的每一轮迭代都同样需要经过以上程序才能够完成。

—THE END—

下期内容:知识图谱的应用前景和挑战如何? | “人工智能+区块链”科普第8问

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容