DoesWilliam Shakespeare REALLY Write Hamlet? Knowledge Representation Learning with Confidence论文笔记 带有置信度的知识图谱表示

image.png

TransE(参考http://blog.csdn.net/u011274209/article/details/50991385/)的直观含义,就是TransE基于实体和关系的分布式向量表示,将每个三元组实例(head,relation,tail)中的关系relation看做从实体head到实体tail的翻译(其实我一直很纳闷为什么叫做translating,其实就是向量相加),通过不断调整h、r和t(head、relation和tail的向量),使(h + r) 尽可能与 t 相等,即 h + r = t。
在公式(1)里E成为能量函数,可以认为是transE的损失函数。
image.png

带有自信感知的KRL能量函数。每一个三元组(h,r,t)都不仅对应一个E(公式1),还对应一个置信度C(h,r,t)。E越小说明三元组被拟合得好,C越大说明三元组越可靠,需要重点考虑。[所以,就有疑问了,为什么不直接把E的大小来表示置信度呢?]
image.png

L是训练的目标函数,形式上为一个支持间隔的值函数。E(h; r; t)表示的是正样本的不相似程度。而E(h’; r’; t’)是负样本的不相似程度。非负数伽马是间隔宽度的超参数。T是正样本的集合,T’是负样本的集合。 C就是置信咯。
image.png

那么负样本是怎么来的呢?(4)表示了负样本的产生过程。说白了就是把(h, r, t)中的任何一个给随机替换了。不同于TransE,这里不仅要替换实体,还会替换关系。最后还要把T'中跟T重合的元素给去掉。[直接在公式里体现不就完了?你这样写公式不就不对了?]
image.png

公式(5)是为了更好地理解局部三元组置信度(LT)而引入的一个公式,因此,我们要先了解一下LT是怎么定义的。
LT其实就是只针对一个三元组本身去考察我们对它的置信度。就比如,莎士比亚,写了,哈姆雷特这本儿书。莎士比亚对应的向量是a,写了对应的向量是b,哈姆雷特对应的向量是c。那么我们根据transE的假设(而且由于transE的结果也很棒,所以我们更应该相信这种假设),a+b跟c越接近,我们对这个三元组的信心不就越高吗?这种只关心这个三元组本身的置信度猜测就是局部置信度。可以看到对于传统的Trans方法,也就是公式(3)不乘那个C,公式(5)实际上就是它的优化目标,或者说损失函数。我们在公式(3)的时候,也说到,(5)其实可以作为一种置信度的度量的,现在文章把(5)列出来,就是要说明这个道理。但最后又不是直接把(5)作为置信,因为那样显得多此一举。所以采用了一种更加机智的迭代算法,来计算LT。
image.png

(6)就是LT的迭代算法。首先,我们给每一组的三元组都都赋予一个LT,并且全部初始化为1,然后在训练的过程中,我们会根据公式(5)对Q进行计算,而且Q也一直是不断变化的,我们也不断地根据公式(6),通过计算Q,来不断地更新LT。α和β都是超参数,α在0到1之间,β>0。这样的一种设计可以保障:当Q<=0时,说明我们对这个三元组没有信心,LT置信度要相应地衰减。而当Q>0时,则暗示了我们需要对这个三元组更加有信心。因此就想办法让它变大。我们设定LT的范围为(0,1]。之所以让LT以几何速率衰减,而却按常数增加是因为我们觉得应该狠狠地去惩罚那些拟合不好的三元组,因为它们很可能是噪声,或者冲突。
这个时候我们不得不了解一下图2啦,刚才讲的一大堆,那就是图2的a咯,现在我们要到图2的b。
如果我们只通过局部的置信还是有问题的,首先就是全局的信息就用不到了,其次呢,当噪声比较多时,效果会很差。(虽然变了一种形式,但不可否认LT就是强化了一下TransE假设而已,跟只用TransE假设相比,估计也好不到哪儿去)
在图2(b)中,有两条多级的关系,从莎士比亚链接到哈姆雷特(除了write这个一级关系之外)。但是下面的A→creator→characters in→B,比起上面的A→born in→language→written language→B更能暗示出write这一层关系。
image.png

这里做一个假设。但一个三元组满足下面所说的两个条件时,它会有更高的置信度:
1.有更多的多级路径链接了它们
2.这些路径在语义上更加接近三元组所陈述的关系
PCRA算法:想象h哪里有很多的资源,然后他们会傻乎乎地顺着整个网络流。流完了,就可以从t那里做个统计。如果从h到t的路径p分到的流量越多,那么p就越重要。
image.png

公式7就是根据上诉仿真过程构建的资源分配函数。Rp(e)就是e分配到的资源。这很明显是个迭代算法。e’表示所有的经过ri直接到e的元素。用人话解释一下公式7,就是,把所有能到e的元素找到,然后因为之前已经计算过他们的R了,那么这个R就做分母。分子的话,就是说e'除了能到e,还能到别的吗?能到几个呢?(包括e),这个数量就作为分子。然后对外面一个西格玛把大家都加起来。
这样,就像摸石头过河一样,一层一层地瞎往前走,最后终于走到了t,这是就可以就三处Rp(t)了。
反过来,我们把s和t固定下来,p作为变量,即在不同的p下,都可以计算一个Rp(t)。我们重新用R(h,p,t)表示Rp(t),也就是从h经过p到t分配的资源。
image.png

公式(8)衡量了r(图2中的write)和某个p(A→creator→characters in→B或A→born in→language→written language→B)的语义相似度,西格玛是个超参数。P(r,p)表示的是r和p一起出现的次数(频率代替概率,怎么理解简单怎么来),P(p)是p出现的所有次数。
image.png

先验路径置信度等于语义相似度乘以分配的资源然后再Σ求和,不难理解。
image.png

QAP就是简单的把关系v的向量和p对应的向量做个减法。两者差距越小,自然语义越相似。因此我们希望Q越来越小。也容易理解。
image.png

所以Q被放到分子上,然后大家Σ求和一下。这就是AP的值啦。
image.png

总的C就是把LT,PP,AP三个东西按不同的权重相加。然后C带到目标函数里,应该就可以编程了。
十二个公式,终于全搞懂了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343

推荐阅读更多精彩内容

  • 今天上午老师还是讲的串口通信,主要是讲的rs485这款通信串口,rs485是一款基于rs232串口的升级版本,下午...
    王春禹阅读 217评论 0 0
  • 关于怎么用平板电脑,我和陈文达成一个暂时共识。每天在嘟嘟睡觉时他自由使用。这是他自己想出来的。 我发现我一直想让自...
    liliqdsd阅读 233评论 0 1
  • 我一定会成为最强的!总有一天,一定,为此我可以不择手段!决不放弃! 刚二十出头的我,前段时间和几个高中同学去爬山,...
    火土土阅读 1,224评论 0 1
  • 今天要和大家讲的是大毛孔的护理问题,最近问这个问题的宝宝也比较多。在对付大毛孔之前,我们要问自己的一个问题是,我的...
    Alinda艾琳达阅读 293评论 0 1
  • 我当年所就读的学校叫广西财经学校,现在已经跟周边的几个学校合并,改为广西财经学院了。说起来各位男同胞也许会...
    我凸你凹阅读 608评论 0 0