通过读取实体描述进行零样本实体链接
链接:https://arxiv.org/pdf/1906.07348
该文呈现了一个零样本实体链接任务,其中提到的内容必须链接到未见的实体,且不需要域内标记的数据。其目标是强健地迁移到高度专业的域,因此不假定元数据或别名表。在这种情况下实体只能通过文本描述来标识,模型必须严格依赖于语言理解来解决新实体的问题。首先该文说明了在大的未标记数据上预训练的强阅读理解模型可以泛化到未见实体上。其次,该文提出一种简单有效的自适应预训练策略(DAP),用于解决与连接新领域中未见实体相关的域迁移问题。该文在为这项任务构建的新数据集上进行了实验,并表明DAP相比包括BERT在内的强大预训练基准方法获得到了改进。
数据集构建
该研究使用维基文档构建了一个新数据集来研究零样本实体链接问题。维基是社区编写的百科全书,每一个都专门研究特定的主题。标记的提及可以基于超链接自动提取。提及和实体具有丰富的文档上下文,可以通过阅读理解方法进行开采。每个维基都有大量与特定主题相关的独特实体,使其成为评估实体链接系统的领域泛化的有用基准。该文使用16个维基数据,其中8个用于训练,4个用于验证和测试。为了构建用于训练和和评估的数据,首先从维基中提取大量的提及。其中许多提及可以通过提及字符串和实体文档的标题之间的字符串匹配轻松地链接起来。这些提及在数据集构建过程中进行下采样,并且在最终数据集中所占的比例很小(5%)。每个维基文档对应一个实体,由文档的标题和内容表示。这些实体连同它们的文本描述一起组成实体字典。由于任务已经相当具有挑战性,该文假设目标实体存在于实体字典中,并将零识别或聚类(无提及或实体指知识库中不存在的实体)留给未来版本的任务和数据集。按以下规则根据提及之间的令牌重叠和相应的实体标题对提及进行分类。1)高度重叠:标题与提及文本相同 2)多个类别:标题是提及文本,后面是消歧短语。 3)所有其他提及都被分类为低度重叠。
表2显示了数据集的一些统计数据。每个域都有大量的实体,从10000到100000不等。该训练集有49275条标有“被提及”的标签。为了检查域内泛化性能,构建了包含5000个提及的保留数据集,每个集合由仅在训练期间看到或看不到的实体组成。验证和测试集各有10000个提及(所有这些都是看不见的)。
表3显示了数据集中提及和实体的样例。在不同的领域之间,提及和实体描述中使用的词汇表和语言有很大的不同。除了获取特定领域的知识外,还需要了解实体描述并执行推理以解决提及的问题。
实体链接模型
该文采用了一个由快速候选生成阶段组成的两阶段流水线,其后是一个代价更高但功能更强大的候选排序阶段。
候选生成
如果没有标准实体链接的别名表,一种自然的替代方法是使用信息检索方法生成候选。使用TF-IDF的一个变体BM 25来度量提及字符串和候选文档之间的相似度。使用带有Lucene的BM 25评分获取分数最高的k个实体进行训练和评估。在实验中,k被设为64。前64个候选的覆盖率平均不到77%,表明这项任务很难完成,给候选生成阶段留下了很大的改进空间。
候选排序
由于比较两种文本也就是在上下文中的提及和候选实体描述是一项类似于阅读理解和自然语言推理的任务,该文使用了一种基于深层转化器(Vaswani等人,2017)的体系结构,该体系结构在这些任务上取得了最先进的性能。
如同在BERT(Devlin等人,2019)中提到的上下文m和候选实体描述e,每个都由128个单词的令牌表示,并作为序列对与特殊start字符以及分隔标记连接在一起输入模型:([CLS]m[SEP]e[SEP])。提及词由一个特殊的嵌入向量来表示,该嵌入向量被添加到提及词嵌入中。转化编码器产生输入对的向量表示,这是在特殊池化令牌[CLS]上最后一个隐藏层的输出,模型由softmax损失进行训练。给定候选集中的实体得分为,其中w是学习的参数向量,模型使用Softmax损失进行训练。实验采用了12层结构,隐藏层维度为768,注意力头为12个。该文把这个模型称为全转化器。通过在与转化器一起编码实体描述和上下文中的提及,它们可以在每一层互相关注。
值得注意的是现有实体链接的神经网络方法还没有深入研究过这种交叉关注的体系结构。为了评估这种不同于先前工作的价值,该文实现了以下两种变体:1)池化转化器:它使用两个深层转化器分别得到上下文中提及的单向量表示,和候选实体中提及的句子; 2)他们分别以上下文中的提及和实体描述作为输入,用特殊标记指示文本边界:([CLS]m[SEP])和([CLS]e[SEP]),并在特殊的开始标记处输出最后的隐藏层编码。评分函数为。该结构还使用了两个转化编码器,但引入了一个额外的注意力模块,允许他关注上下文中提及的令牌表示。
适应目标
该文关注使用无监督预训练以确保下游模型对目标域数据是强健的。预训练前有两种一般策略:(1)任务适应性预训练 (2)开放语料库预训练。该文提出一种新策略:域自适应预训练(DAP),它是对现有两种方法的补充。
引入记号来描述预训练阶段可以组成的各种方法。表示来自源世界文档分布的文本段。表示目标世界文档分布中的文本段。表示从和随机插入的文本段。表示开放语料库中的文本段,实验中,这些是维基百科和BERT中使用的BookCorpus数据集。可以把一系列的预训练阶段串联在一起,例如表示该模型首先在开放语料库上进行预训练,然后对合并的源域和目标域进行预训练,接着仅在目标域上预训练,最后对源域标记数据进行精调。实验表明将不同的预训练策略连接在一起能提供额外的好处。
实验及结果
预训练 所有的实验中都使用了基于BERT的模型架构。掩码LM目标函数(Devlin等人,2019)用于无监督预训练。所有验证域的平均归一化实体链接精度。一组世界的平均性能是通过宏平均计算的。性能定义为单一最佳标识实体的准确性。
基准方法 包括Levenshtein编辑距离和TF-IDF,它们分别将提及字符串与候选实体标题和完整文档描述进行比较,以对候选实体进行排序。实验重现了最近为实体链接设计的神经模型(Ganea和Hofmann,2017;gupta等人,2017),这些模型表现较差,验证了使用强阅读理解模型进行零样本实体链接的必要性。在使用全转化器模型时,为了达到较好的性能,必须进行预训练。
泛化到未见实体 为分析未见实体和零样本实体链接中域转移的影响,该研究通过对训练世界中提及的内容进行预测来评估更标准的域内实体链接设置的性能。表5比较了不同实体拆分的实体链接性能。训练世界中的可见实体是最容易链接到的。对于训练世界中看不见的实体,可以观察到性能下降5点。由于语言分布和实体集的变化,可以观察到性能下降了11点。这一巨大的泛化差距表明了适应新世界的重要性。
域适应预训练的影响 结果见图2(a)。DAP只对目标域数据进行额外的预训练,从而改进了所有的预训练策略。最佳设置把所有现有的策略联系在了一起。为了进一步分析DAP的结果,图2(b)画出了目标未标记数据的掩码LM精度(MLM精度)与最终目标归一化精度之间的关系。在无标记目标数据上增加一个额外的预训练阶段毫不意外地提高了的精度。有趣的是,MLM精度的提高与实体链接精度的提高是一致的。在无监督目标数据上的性能反映了学习到的表示的质量,并与下游任务的性能有很好的相关性,这种方法适用于各种预训练策略。