Building Your Own Knowledge Graph from Scratch: A Two-Step Approach

从0开始构建你自己的知识图谱:一种两步式构造法

自动构建知识图谱的难点在于

  • 实体关系长尾分布导致传统方法构造的图谱包含知识不够完整也不够准确。
  • 训练数据的匮乏使得在构造知识图谱时尽可能多地包含实体/关系(尤其是那些尾部实体/关系)非常具有挑战性。

知识图谱

  • 知识图谱是一张图,实体作为图的节点,实体间的关系作为图的边。

本文创新点

  • 两步构造法——缓解了长尾分布的影响
    1. 先从不同的数据源(data sources)使用远程监督(distant supervised)提取器构造一个初始的知识图谱雏形。大概包含了一个知识图谱中40%的内容,大部分为头部实体/关系。
    2. 通过尾部实体/关系与头部实体/关系共享的上下文信息,使用单样本学习(one-example learning)策略来解决尾部实体/关系数据的离散性。这一步可以用来扩充第一步构造的初始知识图谱,使其规模更大,精确度更高。
      • 这一步有两个目标:
        • 对首部实体和尾部实体之间的语法和词法模式进行建模。
        • 对位于两个分离向量空间中的首部关系和尾部关系之间的语法和词法模式进行建模。
      • 通过实体与关系间的交互,将两个目标结合起来。

详细介绍

构造初始知识图谱雏形由两部分组成

  1. 提取器:负责从非结构化的数据集中提取实体、关系、事实等。
  2. 验证器:负责对提取器的结果进行知识质量评估、对不同来源获取的知识进行一致性检查。

基于种子的提取器

  • 首先预定义几种不同类型的实体/关系。
  • 然后对所选定的领域内的实体/关系类型确定一些具体实例(instances, or say seeds, 种子)。可以用多种方法来获得种子,如人工枚举、网络爬虫、参考领域字典等。选取种子时最好选择那些出现频率高的、明确性的实例。
  • 这种方法的最大的好处是:
    • 种子实体/关系可以用来从外部数据库、网络页面以及领域语料等数据源中产生候选的带标签的训练数据。需要注意的是每一特定种类的实例数量不能过多/过少。本文中,每类10个左右。(实例数越多,产生的训练数据也就越多)

由于选择的是流行、典型的实例,因此产生的训练数据包含的大多数都是领域中的首部关系/实体。

  • 得到训练数据之后,可以用标准的实体/关系抽取方法来构造初始的知识图谱雏形。

Stanford NLP工具 Stanford CoreNLP – Natural language software

  • 基于翻译的相似知识聚类

    • 对于特定的关系r,训练数据中所有的实体对(h,t)被聚类为多个组,可以认为每个组中的实体对都表达相似的关系。
    • 在进行聚类时,每个实体对(h,t)用它们的向量偏移(h - t)来表示,h, t可以用TransE方法获得。

验证器

  • 验证两个实体间的事实知识是否冲突。例如三元组(h, FatherOf, t)和三元组(t, FatherOf, h)所表达的事实知识就是冲突的。
  • 基于单真值(Single-truth Based)的验证方法
    • 适用于只有一个真值的情况,如上例。
    • 对于从一个数据源抽取的知识,我们为每个知识分配相应的置信度来衡量它的真实性。并使用一个预定义的阈值来过滤那些具有低置信度的知识。置信度记作θ(h, r , t ),三元组(h, r, t)表示一个知识(真实性由置信度来衡量)。
    • θ有两种计算方法:
      • 用共现度来定义,PMI主要可以用来衡量两个词之间的关联度(word association)。
      • 尚未确定。
  • 基于多真值(Multi-truth Based)的验证方法
    • 适用于有多个真值的情况,即一个事实的不同粒度表示。如(A, Birth_place, China)和(A, Birth_place, Beijing)(理解方式不对, 应理解为保持两个实体不变,颠倒主体(Subject)和客体(Object)的顺序)
    • 两个实体间可以存在多个三元组,且表示同一事实。例如,三元组(h, FriendOf, t)和三元组(t, FriendOf, h)表示的是同一事实。

使用迁移学习(one-shot learning)来扩充初始知识图谱

利用首部小样本数据联合学习尾部实体和关系

  • 尾部实体/关系的实例非常少。
  • 利用尾部实体/关系与首部实体/关系间的上下文相似性,提出一个多分类逻辑回归模型来学习更多的尾部实体/关系实例。
  • 不同的实体/关系实例之间共享一些词法和语法结构,因此可以认为一些首部实体/关系可以转换为尾部实体/关系。(How?)
  • 可以用首部实体/关系的实例作为训练数据来学习尾部实体/关系。解决了尾部实体/关系实例较少的问题。

尾部实体学习

  • 实体抽取可看作是一个分类问题。
  • Te是具有少量实例的尾部实体集合,He是头部实体集合。
  • 要训练一个Te的实体抽取器,语法模式(Syntatic Pattern)被表示为为权重向量。权重向量可用来分离首部/尾部实体中的正负实例。

尾部关系学习

  • 关系抽取可看作是一个分类问题。
  • 不同的关系之间共享一些共同的语法和词法结构。
  • 因此,不同关系的分类问题视为相关联的任务, 故可以使用多任务迁移学习(Multi-task Transfer Learning)技术来进行关系抽取

联合优化

  • 由于实体和关系是高度相关联的,所以将上述分离的实体抽取模型和关系抽取模型融合起来,会使得整体效果各到进一步的提升。

实验部分(build a KG in a coarse-to-fine manner)

用两个不同领域的数据集来进行实验

  • 先只进行第一步操作,得到一个粗糙的(coarse)知识图谱,并对其性能进行评估。
  • 再施加第二部操作,精化(refine)知识图谱并重新评估性能与第一步的结果进行比较。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容