论文精读-Translating Embeddings for Modeling Multi-relational Data

NIPS/NeurIPS 2013/12
文章简介:
本文提出了一种易于训练参数较少的模型TransE,其在链路预测(link prediction)中获得了不错的表现。
一周论文 | 基于翻译模型(Trans系列)的知识表示学习
【知识图谱】——8种Trans模型
上述文章总结的很好也有代码链接。


目录:

1.Introduction

2.Translation-based model

3.Related work

4.Experiments

4.1 Data sets

4.2 Experimental setup

4.3 Link prediction

4.4 Learning to predict new relationships with few examples

5.Conclusion and future work


1.Introduction

这里给出了多关系数据(multi-relational data)的概念,(h,l,t)中的l存在label即存在多种关系,比如推荐系统中实体是产品和用户之间的关系有购买,评价,搜索;知识图谱中实体间不同类型的关系。
模型处理一般是从实体间提取出全局连接模式和局部连接模式(local connectivity pattern),实体间的关系预测也是通过这些提取出的模式(pattern)来完成。

Modeling multi-relational data

而关系型数据的困难之处在于无论是实体还是关系都有许多不同的类别并会同时出现,所以对于多关系数据需要很好的方法来提取出模式(pattern)。
因为协同过滤中的矩阵分解技术,在表示单关系数据中实体连接模式(connectivity pattern)的相似度上获得了成功,目前处理多关系数据大多数方法采用学习潜在特征的方法。然而大多数模型都很复杂,模型的高容量会使得正则化项难以设置导致过拟合,过多的局部极小值点带来的非凸优化问题会导致欠拟合。然而有研究表明简单的模型也可以获得很好的结果。

Relationships as translations in the embedding space

所以本篇文章提出了TransE模型,将关系和实体嵌入低维向量。至于为什么是Trans即Translation-based,原文为"relationships are represented as translations in the embedding space"(注英文中translation有翻译和向量变换的关系,translation vector平移矢量)。
提出这个模型主要有两个动机。
第一是知识库中的关系在结构上全部相同即都是结点间的边,用translation可以很好的表达他们。作者这里举了一个树的例子,把树结构嵌入二维的话可以建立坐标系以坐标(x,y)来表示。这样的话树结点的父子关系可以根据y轴的translation表示,而兄弟结点关系可以根据x轴的translation表示。
第二个是词嵌入方面的进展(T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean. Distributed representations of words and phrases and their compositionality. In Advances in Neural Information Processing Systems (NIPS/NeurIPS 26), 2013.)这篇文章,作者认为实体间的1-to-1关系能通过
translation表达。


2.Translation-based model

TransE学习实体及关系的向量嵌入,原理和简单有三元组(h,l,t),我们的训练目的就是使嵌入h+l≈t。


(1)损失函数(2)负例三元组采用自随机更换头实体或尾实体,不会同时更换

注意实体作为头实体或尾实体的嵌入是一致的。


训练过程

训练采用SGD来更新h,l,t。注意到第5行中每次训练实体都会归一化(L2 norm),而关系则不会。作者给出的解释是防止训练会增大实体向量来降低损失函数的情况,之前的嵌入模型也都这样处理非常重要。每次训练中会采样1batch的三元组以及1个负样例来训练。

3.Related work

作者这里比对了SE(Structured Embeddings)和NTM(Neural Tensor Network)。
SE的思路就是对于k维的实体e,定义两个k*k的投影矩阵L1和L2。如果h和t属于一个三元组,则他们的嵌入在L1和L2的投影下应该接近L1h≈L2t。用L1和L2两个变换来表示关系可能是想表现出关系的不对称性(关系有方向)。
SE的表现不如TransE,作者认为原因有两点:
1.比起SE两个投影矩阵表现关系,TransE更加直接将关系也嵌入了。
2.SE难以训练。

接着就是NTM:
得分函数(梯度上升)

这其实和TransE有些类似,但是TransE参数更少易于训练。

4.Experiments

4.1 Data sets

Wordnet

实体是语义(同义词集合),关系是词汇关系。超过40K实体。

Freebase

Freebase在不断扩充,论文发表时有1.2billions个三元组,超过80millions实体。从中提取出Wikilinks database中也包含并在Freebase中出现超过100次的14951个实体和1345个关系,这个数据集称为FB15k。选择最常出现的1million个实体,得到数据集FB1M,其包含17millions个三元组和25k关系。

4.2 Experimental setup

Evaluation protocol

在实验时会移除头实体然后遍历每一个节点去计算相异度(dissimilarity or energies)然后升序排序。也可以移除尾节实体来这样做。这里给出两个指标,
mean rank:在得到的排序中,对正确答案的实体排名求平均。数值越低说明模型越好(真实实体相异度低)。
hits@10:如果正确答案在排名前10,则+1。hits@10代表了排名前10里正确答案的比例。
这些指标具有参考性但是也有疏漏,训练中的负样例有可能也是正确答案但是被作为了负例训练。比如奥巴马是美国总统,头实体奥巴马尾实体美国关系总统,我把头实体随机替换生产负样例,替换成了布什,然而布什也是正确答案(训练集中也有布什,总统,美国的三元组)。一种处理方法是把生成的负列三元组中,在训练集或验证集或测试集中出现过的删除,即对应了表格里的Raw和Filt.。


实验结果
Baselines

这里介绍了上表中各个模型的超参数设置。

Implementation

调参的搜索空间为:学习率{0.001,0.01,0.1},margin γ={1,2,10},嵌入维度k{20,50},距离采用L1距离或者L2距离。
最佳超参数:
Wordnet:k=20,学习率0.01,γ=2,距离采用L1距离。
FB15k:k=50,学习率0.01,γ=1,距离采用L1距离。
FB1M:k=50,学习率0.01,γ=1,距离采用L2距离。
训练一共1000个epochs,最佳模型参考的指标是means rank。

4.3 Link prediction

Overall results

作者认为TransE获得的成就在于其能被高效训练,而其他模型因为复杂所以很难训练。
同时关系的嵌入很重要(The impact of the translation term is huge)。TransE去掉关系向量(TransE without translation)的Unstructured模型,只是将同时出现的实体聚类起来,mean rank还可以和TransE差不多但是hits@10就很差。

Detailed results
hits@10onFB15k

预测头实体和尾实体时作者将关系分为四类,按照给定一个关系对应头实体和尾实体的个数来分类(M.-TO-1在预测头实体时代表M个头实体对应1个尾实体,而不是M个尾实体去预测1个头实体)。注意一个关系会对应很多不同的实体对,所以是按照平均数来决定属于哪类,平均低于1.5就会被算作1。举个例子给定一个关系l,平均1个头实体h对应3.2个尾实体t,那预测尾实体就是1-TO-M.;1个尾实体t对应1.2个头实体h,那预测头实体就是1-TO-1。
从表中容易看出,预测头实体时1-TO-M.和预测尾实体时M.-TO-1得分都很高很容易预测,因为被预测的实体有多个实体连向他。Unstructured在1-TO-1中尚且可以,其他中就不行了因为他无法判别关系。

Illustration
实例

来自FB15K的尾实体预测。加粗表示测试三元组的正确答案,斜体表示训练集里的正确答案

4.4 Learning to predict new relationships with few examples

基于FB15K,作者想测试不同模型学习新关系的数据。所以作者将数据集分为两类:
FB15k-40rel:包含随机抽取的40种关系的所有三元组。训练集有40,000个三元组(每个关系1000个三元组),测试集45,159个三元组。
FB15k-rest:剩余的所有三元组。训练集包含 353,788个三元组,验证集包含53,266个三元组。
两个数据集都包含了所有实体。
基于这两个数据集,作者用FB15k-rest训练模型,随后在 FB15k-40rel的训练集上训练新的40个关系,最后在测试集上测试。注意测试的依旧是link predicition,预测实体。结果如下:


横轴为FB15k-40rel的训练集中训练的三元组数量

Unstructured因为不依赖于关系所以表现一致持平。TransE依旧表现的很好。


5.Conclusion and future work

作者下一步想把这类方法拓展到更多应用场景比如说词语的表征学习,以及把知识库和文本结合。作者最近将TransE加入文本关系抽取的框架中。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,029评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,238评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,576评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,214评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,324评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,392评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,416评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,196评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,631评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,919评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,090评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,767评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,410评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,090评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,328评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,952评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,979评论 2 351

推荐阅读更多精彩内容