Combining Distant and Direct Supervision for Neural Relation Extraction

本文首先将远程监督数据集与直接监督的数据集合并，发现模型并没有提升，可能是因为改变了关系类型的分布。将平均注意力权重改为用当前句子存在一种关系的可能性作为注意力权重，然后将直接监督数据用作监督这些注意力权重，AUC得到提升。

Abstract

在远程监督关系抽取中，噪音标签使得难以训练处好的模型，以前的工作使用注意力机制来降低噪音的影响，本文采取联合远程监督与直接监督的方法来训练模型，从而提高模型识别噪音句子的能力。同时，本文发现sigmod注意力权重比普通的平均注意力权重有更好的效果。

Introduction

远程监督与直接监督结合

左侧显示标记数据（直接监督）中的一个句子，以及如何使用它为句子编码器提供直接监督。其中表示当前句子存在一种关系的概率，图中为零，为句子编码。右侧显示文本语料库和知识基础的片段然后结合起来为模型构建一个训练实例，unlabeled sentences为远程监督数据，其中包含三个输入句子和两个主动关系：“的创始人”和“的首席执行官”。
创新点：
1）该模型在多任务学习设置中联合训练两种类型的监督，其中直接监督数据被用作对注意力权重的监督。
2）实验表明，模型设置sigmod注意权重与最大池操作比平均注意力权重softmax效果好。

Model

模型

句子编码
输入为句子s的一系列向量， $w_i$ 为词向量， $d_i$ 为词到实体的距离： $v_i=[w_i;d^{e1}_i;d^{e2}_i], i∈1,...,|s|$ 句子编码为： $c_x=CNN_x(v_1...v_{s}), x∈\{2,3,4,5\}$ $s=W_1[c_2...c_5]+b1$ 图中 $P(e1,e2|s)$ 为e1和e2之间的概率： $p = σ(W_3ReLU(W_{2s} + b_2) + b_3)$
包编码
使用注意力机制来整合包中所有句子编码，先计算句子的权重，再与句子编码相乘，并通过最大池输出一个固定长度的向量。 $u_j = W_7 ReLU(W_{6 p} + b_6) + b_7$
然后加入两个实体的向量 $m = e1 ⊙ e2$
最后通过激活函数ReLU和softmax得到各个关系类型的概率： $t = ReLU(W_4[g; m] + b_4)$ $P(r = 1 | e_1, e_2) = σ(W_5t + b_5)$
直接监督为P(e1∼e2 | s)提供监督。远程监督为P(r=1 | e1，e2)提供监督。
模型训练
远程监督使用二元交叉熵损失函数, $r^{distant}[k] = 1$ 表示知识库中存在关系(e1, rk, e2)：

直接监督数据服务于监督注意力权重，同时采用这种方法不需要与远距离监督数据相同的一组关系类型，因为只关心两个实体间是否存在某种相关的关系，而不关心关系的类型。

整体损失函数：