《知识图谱》理解

知识图谱的意义

利用知识图谱为查询词赋予丰富的语义信息,建立与现实世界实体的联系,从而帮助用户更快找到所需的信息。

知识图谱的应用

知识图谱将搜索引擎从字符串匹配推进到实体层面,可以极大地改进搜索效率和效果,为下一代搜索引擎的形态提供了巨大的想象空间。

  • 查询理解。google搜索,在搜索某个单词时,根据知识图谱可以赋予单词的语义信息,搜索引擎更好滴理解用户搜索意图。从而可以展示和该查询词相关的其他信息,更好滴匹配商业广告,提高广告点击率,增加收益。
  • 自动问答。知识图谱可以作为自动问答的知识库。
  • 文档表示。文档表示是NLP中很多任务的基础,如文档分类、文档摘要、关键词抽取等等。经典的文档表示是VSM(Vector Space Model),将文档表示为词汇的向量,采用BOW(Bag Of Word)假设,没有考虑到文档中词汇的顺序信息,也没有考虑到词汇之间的复杂语义关系。而知识图谱的出现,为文档表示带来新希望,那就是基于只是的文档表示。一篇文章不再用一组没有语义代表词汇的字符串表示,而是由文章中的实体和关系来表示,给文档赋予了语义。最简单的基于知识图谱的文档表示方案是,用文档包含的实体及其关系组成的子图表示文档。
  • google play movies & tv 应用中添加一个新功能,当用户使用安卓系统观看视频时,暂停播放,视频旁边就会自动弹出该屏幕上任务或者配乐信息。这里用到的技术应该包含图像处理和知识图谱

知识图谱的构建

数据来源主要有:

  • 大规模知识库,维基百科、百度百科等,大量结构化的知识,能较高效第转化到知识图谱中
  • 海量网页,但是知识较杂乱,需要通过一些自动化技术,将其抽取出来

大规模知识库

大规模数据库以词条作为基本组织单位,每个词条对应现实世界中的某个概念

知识图谱的主要技术

实体链指(Entity Linking)

为了帮助人们更好地了解网页内容,很多网站或作者会把网页中出现的实体链接到相应的知识词条上,为读者提供更详尽的背景资料。这种做法实际上将互联网网页与实体之间建立了链接关系,因此被称为实体链指。

实体链指的主要任务有两个:实体识别(Entity Recognition) 与实体消歧(Entity Disambiguation)。

实体识别:从文本中发现命名实体,最典型的包括人名、地名、机构名等三大实体。近些年,还开始尝试电影名、产品名称等更丰富的实体类型。还有研究者剔除除了对实体进行识别,还应对概念(concept)进行识别。

实体消岐:不同环境下的同一实体名称可能对应不同实体。这种一词多义,或者歧义问题普遍存在。将文档中出现的名字链接到特定的实体上,这一过程就做消岐。

实体链指不仅限于实体和实体之间,也包括实体与图像、社交媒体等数据的关联。

关系抽取(Relation Extraction)

可以将所有关系看做分类标签,把关系抽取转换为对实体对的关系分类问题。可以利用机器学习分类模型(如最大熵分类器、SVM等)构建信息抽取系统。
这种关系抽取方案的主要挑战在于缺乏标注语料。2009年斯坦福大学的研究者提出远程监督(Distant Supervision)思想,使用知识图谱中已有的三元组实例启发式地标注训练语料。

远程监督思想的假设是:每个同时包含两个实体的句子,都表述了这两个实体在知识库中的对应关系。例如,根据知识图谱中的三元组实例(苹果,创始人,乔布斯)和(苹果,CEO,库克),我们可以将以下四个包含对应实体对的句子分别标注为包含“创始人”和“CEO”关系:


Paste_Image.png

远程监督方法会引入大量噪声训练样例,严重损害模型准确率。例如,对于(苹果,创始人,乔布斯)我们可以从文本中匹配以下四个句子:

Paste_Image.png

在这四个句子中,前两个句子的确表明苹果与乔布斯之间的创始人关系;但是,后两个句子则并没有表达这样的关系。很明显,由于远程监督只能机械地匹配出现实体对的句子,因此会大量引入错误训练样例。

为了解决这个问题,人们提出了很多去除噪声实例的办法,来提升远程监督性能。例如,研究发现,一个正确训练实例往往位于语义一致的区域,也就是其周边的实例应当拥有相同的关系;也有研究提出利用因子图、矩阵分解等方法,建立数据内部的关联关系,有效实现降低噪声的目标。

知识推理(Knowledge Reasoning)

很多人研究如何自动挖掘相关推理规则或模式。目前主要依赖关系之间的同现情况,利用关联挖掘技术来自动发现推理规则。

利用推理规则实现关系抽取的经典方法是Path Ranking Algorithm(Lao &Cohen2010),该方法将每种不同的关系路径作为一维特征,通过在知识图谱中统计大量的关系路径构建关系分类的特征向量,建立关系分类器进行关系抽取,取得不错的抽取效果,成为近年来的关系抽取的代表方法之一。但这种基于关系的同现统计的方法,面临严重的数据稀疏问题。

参考文献

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,992评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,212评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,535评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,197评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,310评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,383评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,409评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,191评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,621评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,910评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,084评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,763评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,403评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,083评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,318评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,946评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,967评论 2 351

推荐阅读更多精彩内容

  • 作者:刘知远(清华大学);整理:林颖(RPI) 本文来自Big Data Intelligence知识就是力量。—...
    墨白找阅读 11,537评论 4 54
  • 这篇文章主要参考了[1]刘峤,李杨,段宏,刘瑶,秦志光. 知识图谱构建技术综述[J]. 计算机研究与发展,2016...
    我偏笑_NSNirvana阅读 52,501评论 6 125
  • 前面的文章主要从理论的角度介绍了自然语言人机对话系统所可能涉及到的多个领域的经典模型和基础知识。这篇文章,甚至之后...
    我偏笑_NSNirvana阅读 13,896评论 2 64
  • 本体、知识库、知识图谱、知识图谱识别之间的关系? 本体:领域术语集合。 知识库:知识集合。 知识图谱:图状具有关联...
    方弟阅读 28,397评论 6 49
  • 知识图谱(Knowledge Graph)是当前学术界和企业界的研究热点。中文知识图谱的构建对中文信息处理和中文信...
    苟雨阅读 7,318评论 0 11