论文阅读_无监督知识图对齐PRASE

介绍

英文题目:Unsupervised Knowledge Graph Alignment by Probabilistic Reasoning and Semantic Embedding
中文题目:基于概率推理和语义嵌入的无监督知识图对齐
论文地址:https://arxiv.org/abs/2105.05596v1
领域:自然语言处理,知识图谱
发表时间:2021
作者:腾讯天衍实验室
出处:IJCAI(国际人工智能联合会议)
被引量:1
代码和数据:
https://github.com/qizhyuan/PRASE-Python
https://github.com/dig-team/PARIS
阅读时间:22.04.08

泛读

  • 针对问题:实体对齐(不是本体对齐)
  • 结果:效果优于之前模型
  • 核心方法:提出PRASE,基于概率推理语义嵌入,使用不断更新种子的方法迭代训练上述两个子模型。
  • 难点:先需要了解一下PARIS模型
  • 泛读后理解程度:70%
    (看完题目、摘要、结论、图表及小标题)

精读

摘要

目前常用的实体对齐方法包括:基于词嵌入的对齐、常识推理和字典匹配。前者的模型常常依赖有监督学习,缺乏恰当的推理,难以避免逻辑错误的映射;后者解决了推理问题,但较少使用图结构和实体上下文。本文致力于结合二者。

1. 介绍

实体对齐可用于把局部的知识图结合成更大的知识图,具体的工作是需要找到不同图中含义相同的实体、关系等。

图嵌入将图中实体关系等信息编码到低维空间,使其包含的语义信息作为进一步探索的工具。对齐问题的解决方法常常是:先将待对齐的知识图嵌入到一个向量空间中,然后通过计算向量距离或相似性来发现映射。

这些基于嵌入的模型常常需要一定数量的知识映射(对齐种子)来进行训练,而种子标注需要大量人力。种子的数量和抽样分布对对准性能有很大影响。而且先编码后映射的方法可能忽略整体性,从而导致映射错误。

使用逻辑推理或者字典映射,本体对齐方法是相对传统的技术,比如2012年的PARIS利用概率归因和字典映射方法,通过名字匹配一些初始特征之后,通过迭代概率推理来推断实体、关系的等价性。因此无需训练,不依赖种子,更高效和可扩展。但它在开发和利用图形结构和其他上下文信息方面较弱。

本文致力于结合上述两种模型,提出了无监督的迭代框架PRASE。其中的PA是概率推理模块(probablistic reasoning),SE是词嵌入(semantic embedding)模块。PR基于之前PARIS模型,SE用于捕捉图结构和实体的上下文,PR从SE处得到映射和实体嵌入。

本文主要贡献如下:

  • 提出无监督的对齐框架PRASE,用迭代方法结合了两种模型
  • 使用PARIS和不同的词嵌入模块实现模型
  • 在多个数据集上达到比之前更好的效果

2. 预备知识

背景和相关工作

2.1 问题表述

设符号:E是边,R是关系,A是属性,V是属性值。将图定义为G=(E,R,A,V,TR,TA),其中TR指关系三元组,TA指属性三元组:

问题定义成对两个图G和G'中实体的对齐方法:

"≡"指的是两个实体指向现实世界中的同一对象。

2.2 PARIS方法

属性三元组和关系三元组类似,因此定义:

并且定义了关系的度量函数及其反向函数:

其中|.|表示集合的基数(集合中的元素数量),上述函数用于计算头实体和尾实体的唯一性。当F(r)=1时,说明其头实体是唯一的,请注意:F和F-1具有不变性,因此,可提前计算。

PARIS(2012年论文,用于对齐实例、关系、类,适用于大型图)可以交替计算实体映射和包含关系,不同图中的两个实体h和h'相等的概率P(h ≡h′),计算如下:

其中(h,r,t)是图中的三元组,式-2的大概意思是:在确定了尾实体相等的概率、关系r的逆函数F-1,以及r与r'包含关系的概率后,即可计算头实体h与h'是同一实体的概率。
其中P(r ⊆ r′)表示r是r'子集的概率:

式-3假设已知头实体和尾实体分别指向同一实体的概率,分母计算所有h,t,分子计算包含h,r,t的三元组。

可以看到计算P(r ⊆ r′)需要P(h ≡h′),而P(h ≡h′)又需要P(r ⊆ r′),二者相互依赖,因此需要迭代优化。一开始,P(r ⊆ r′)可被设置为一个很小的值,比如0.1;或者,当实体是属性时,如果文字描述相同则设为1,否则为0;更高级的方法是用实体间的编辑距离作为其评分。

在每次迭代时,式-2计算出了实体相等的概率,式-3又计算了关系的包含关系,迭代直至收敛。最终PARIS输出的是实体映射表记作 ̃YP,Po(e≡e‘),(e,e’)∈Yp,上标o表示输出。

2.3 基于嵌入的知识图对齐

基于嵌入的知识图对齐一般分两步:先学习词嵌入(如使用TransE或图神经网络),在不同图中使用同一向量空间编码,通过参数共享、参数互换、嵌入变换、嵌入校准等策略实现;然后,基于度量实体嵌入的相似性来预测实体映射。

MTransE是比较典型的嵌入方法,通过以下损失函数优化:

其中||.||计算欧几里得范数,h,r,t都是编码后的低维向量,处于同一向量空间。一般情况下需要种子训练模型:

最小化损失:

其中e和e'是实体嵌入,维度为m,M是大小mxm的转移矩阵。通过学习M,G可被转换到G'所在的空间。最终实现实体映射记作 ̃YE,其相似度在[0,1]之间。记作: S(e ≡ e′),(e,e′) ∈ ̃YE。通过该方法可以进行近邻搜索。

3. 框架

3.1 PRASE 概览

模型框架如图-1所示,主要由概率模型PR和嵌入模型SE组成。PR用于计算实体映射 ̃YP 及其概率Po。然后将高置信度的映射作为种子,传入嵌入模型SE,SE通过这些种子来训练模型,然后SE模型对于PR模型输出的未对齐的实体 ̃UP进行预测;之后,将SE预测结果实体映射表 ̃YE和相似度得分S(e ≡ e′),以及实体嵌入结果:

作为PR模块的输入,再进行下一次迭代。以上过程迭代K次,PR模型最终输出实体映射表 ̃YP。

3.2 概率推理模型

PR模块首先利用式-1计算出关系的函数F及其反向函数,然后利用式2式3计算两个实体的相似概率。PR与SE交替调用,在k次迭代时(k>0),将前次输出作为本次的输入

i指输入,o指输出,每次迭代时PR的输入如下:

P指的是PR模块的映射概率。当前一个PR模型认为两实体对齐时,将其为同一实体的概率以权重a1代入;当SE模型认为二者对齐且相似度大于阈值δ1(δ1,a1,a2均为超参数,取值范围在0-1之间),将其相似度以权重a2代入;否则设其概率初值为0。

为了更直接地利用SE输出的嵌入信息,在迭代过程中,将PARIS中的式-2变为式-5:

利用超参数β(取值(0,1))来平衡词向量相似度和PARIS计算的概率。sim()计算cosine距离,其取值在[0,1]。

3.3 语义嵌入模块

在第k次迭代时,利用上一次PR产生的对齐数据集Yk-1,从中提取出置信度高(超参数δ2作为阈值)的对齐数据作为种子Sk来训练SE,尽管很多时候种子中包含不正确的数据,但是它也能带来大量的有用信息。用训练好的SE代入未对齐的实体U,它将输出与U最相似的实体,以及词嵌入。任何词嵌入方法都可以用作SE。

PRASE流程如算法-1所示:

对于两个图G和G',设置迭代次数K。
line 1: 用式-1初始化PR模块(通过两图中三元组计算关系函数F)
line 2:PR处理:用式-2和式-3依次计算实体相似概率和关系的包含
line 3:产生了初始的对齐数据集Y0和未对齐数据集U0。
line 4:开始迭代
line 5:基于前次对齐数据集Yk-1产生种子
line 6:使用种子训练SE模型
line 7:用SE模型对前次未对齐数据Uk-1预测
line 8:产生了本次预测结果YE和嵌入结果EEk
line 9:使用式-4初始化PR模型
line 10:PR处理,计算式-5和式-3
line 11:产生了本次的对齐数据集Yk和未对齐数据集Uk。
line 12:继续迭代
line 13:最终输出Y

4. 评价

4.1 数据集

OpenEA 数据集: 常用的用于评测图对齐的数据集。由DBpedia, YAGO, and Wikidata组成,文中评测使用其V2版本,包含跨语言数据集和跨知识图谱数据集,另外,还使用了相对困难的数据集D-W-15K-V2。
下载地址:https://github.com/nju-websoft/OpenEA

工业数据集:MED-BBK-9K是Zhang在2020年提出的数据集,包含专业医学数据集和百度百科医学数据(中文),约几十万个三元组。形如:

下载地址:https://github.com/ZihengZZH/industry-eval-EA
解压后即可看到三元组数据(又解锁一个中文的医学图谱数据及其对齐算法,开心)。

4.2 实验设置

最上边部分是嵌入模型,第二部分是推理模型,STR-Match和 EMB-Match计算实体间的相似度,最后一部分是PRASE模型分别使用BootEA和MultiKE模型作为SE。

实验环境是: NVIDIATesla M40 GPU, and CentOS 7.2,128G内存,2.4GHz CPU。对于4个100K的数据集的训练速度是平均1697秒,BootEA和MultiKE分别是24727和3198。

表-3和表-4分别展示了消融实验和不同嵌入模型的对比效果。

图-5展示了不同迭代次数对模型的影响,更多的迭代可以提升模型效果,但K也不用设得太大。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,692评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,482评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,995评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,223评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,245评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,208评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,091评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,929评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,346评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,570评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,739评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,437评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,037评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,677评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,833评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,760评论 2 369
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,647评论 2 354