通过读取实体描述进行零样本实体链接

                                                                   通过读取实体描述进行零样本实体链接


链接:https://arxiv.org/pdf/1906.07348

        该文呈现了一个零样本实体链接任务,其中提到的内容必须链接到未见的实体,且不需要域内标记的数据。其目标是强健地迁移到高度专业的域,因此不假定元数据或别名表。在这种情况下实体只能通过文本描述来标识,模型必须严格依赖于语言理解来解决新实体的问题。首先该文说明了在大的未标记数据上预训练的强阅读理解模型可以泛化到未见实体上。其次,该文提出一种简单有效的自适应预训练策略(DAP),用于解决与连接新领域中未见实体相关的域迁移问题。该文在为这项任务构建的新数据集上进行了实验,并表明DAP相比包括BERT在内的强大预训练基准方法获得到了改进。

                                                                                        数据集构建

       该研究使用维基文档构建了一个新数据集来研究零样本实体链接问题。维基是社区编写的百科全书,每一个都专门研究特定的主题。标记的提及可以基于超链接自动提取。提及和实体具有丰富的文档上下文,可以通过阅读理解方法进行开采。每个维基都有大量与特定主题相关的独特实体,使其成为评估实体链接系统的领域泛化的有用基准。该文使用16个维基数据,其中8个用于训练,4个用于验证和测试。为了构建用于训练和和评估的数据,首先从维基中提取大量的提及。其中许多提及可以通过提及字符串和实体文档的标题之间的字符串匹配轻松地链接起来。这些提及在数据集构建过程中进行下采样,并且在最终数据集中所占的比例很小(5%)。每个维基文档对应一个实体,由文档的标题和内容表示。这些实体连同它们的文本描述一起组成实体字典。由于任务已经相当具有挑战性,该文假设目标实体存在于实体字典中,并将零识别或聚类(无提及或实体指知识库中不存在的实体)留给未来版本的任务和数据集。按以下规则根据提及之间的令牌重叠和相应的实体标题对提及进行分类。1)高度重叠:标题与提及文本相同   2)多个类别:标题是提及文本,后面是消歧短语。 3)所有其他提及都被分类为低度重叠。

       表2显示了数据集的一些统计数据。每个域都有大量的实体,从10000到100000不等。该训练集有49275条标有“被提及”的标签。为了检查域内泛化性能,构建了包含5000个提及的保留数据集,每个集合由仅在训练期间看到或看不到的实体组成。验证和测试集各有10000个提及(所有这些都是看不见的)。


      表3显示了数据集中提及和实体的样例。在不同的领域之间,提及和实体描述中使用的词汇表和语言有很大的不同。除了获取特定领域的知识外,还需要了解实体描述并执行推理以解决提及的问题。


                                                                            实体链接模型

     该文采用了一个由快速候选生成阶段组成的两阶段流水线,其后是一个代价更高但功能更强大的候选排序阶段。

候选生成

       如果没有标准实体链接的别名表,一种自然的替代方法是使用信息检索方法生成候选。使用TF-IDF的一个变体BM 25来度量提及字符串和候选文档之间的相似度。使用带有Lucene的BM 25评分获取分数最高的k个实体进行训练和评估。在实验中,k被设为64。前64个候选的覆盖率平均不到77%,表明这项任务很难完成,给候选生成阶段留下了很大的改进空间。

候选排序

       由于比较两种文本也就是在上下文中的提及和候选实体描述是一项类似于阅读理解和自然语言推理的任务,该文使用了一种基于深层转化器(Vaswani等人,2017)的体系结构,该体系结构在这些任务上取得了最先进的性能。

        如同在BERT(Devlin等人,2019)中提到的上下文m和候选实体描述e,每个都由128个单词的令牌表示,并作为序列对与特殊start字符以及分隔标记连接在一起输入模型:([CLS]m[SEP]e[SEP])。提及词由一个特殊的嵌入向量来表示,该嵌入向量被添加到提及词嵌入中。转化编码器产生输入对的向量表示h_{m,e},这是在特殊池化令牌[CLS]上最后一个隐藏层的输出,模型由softmax损失进行训练。给定候选集中的实体得分为w^\top h_{m,e},其中w是学习的参数向量,模型使用Softmax损失进行训练。实验采用了12层结构,隐藏层维度为768,注意力头为12个。该文把这个模型称为全转化器。通过在与转化器一起编码实体描述和上下文中的提及,它们可以在每一层互相关注。

      值得注意的是现有实体链接的神经网络方法还没有深入研究过这种交叉关注的体系结构。为了评估这种不同于先前工作的价值,该文实现了以下两种变体:1)池化转化器:它使用两个深层转化器分别得到上下文中提及的单向量表示h_m,和候选实体中提及的句子h_e; 2)他们分别以上下文中的提及和实体描述作为输入,用特殊标记指示文本边界:([CLS]m[SEP])和([CLS]e[SEP]),并在特殊的开始标记处输出最后的隐藏层编码。评分函数为h_{m}^\top  h_e。该结构还使用了两个转化编码器,但引入了一个额外的注意力模块,允许他关注上下文中提及的令牌表示。

适应目标

       该文关注使用无监督预训练以确保下游模型对目标域数据是强健的。预训练前有两种一般策略:(1)任务适应性预训练 (2)开放语料库预训练。该文提出一种新策略:域自适应预训练(DAP),它是对现有两种方法的补充。

       引入记号来描述预训练阶段可以组成的各种方法。U_{src}表示来自源世界文档分布的文本段。U_{tgt}表示目标世界文档分布中的文本段。U_{src+tgt}表示从U_{src}U_{tgt}随机插入的文本段。U_{WB}表示开放语料库中的文本段,实验中,这些是维基百科和BERT中使用的BookCorpus数据集。可以把一系列的预训练阶段串联在一起,例如U_{WB}\rightarrow U_{src+tgt}\rightarrow U_{tgt}表示该模型首先在开放语料库上进行预训练,然后对合并的源域和目标域进行预训练,接着仅在目标域上预训练,最后对源域标记数据进行精调。实验表明将不同的预训练策略连接在一起能提供额外的好处。

                                                                实验及结果

 预训练   所有的实验中都使用了基于BERT的模型架构。掩码LM目标函数(Devlin等人,2019)用于无监督预训练。所有验证域的平均归一化实体链接精度。一组世界的平均性能是通过宏平均计算的。性能定义为单一最佳标识实体的准确性。

基准方法  包括Levenshtein编辑距离和TF-IDF,它们分别将提及字符串与候选实体标题和完整文档描述进行比较,以对候选实体进行排序。实验重现了最近为实体链接设计的神经模型(Ganea和Hofmann,2017;gupta等人,2017),这些模型表现较差,验证了使用强阅读理解模型进行零样本实体链接的必要性。在使用全转化器模型时,为了达到较好的性能,必须进行预训练。

泛化到未见实体  为分析未见实体和零样本实体链接中域转移的影响,该研究通过对训练世界中提及的内容进行预测来评估更标准的域内实体链接设置的性能。表5比较了不同实体拆分的实体链接性能。训练世界中的可见实体是最容易链接到的。对于训练世界中看不见的实体,可以观察到性能下降5点。由于语言分布和实体集的变化,可以观察到性能下降了11点。这一巨大的泛化差距表明了适应新世界的重要性。

 域适应预训练的影响   结果见图2(a)。DAP只对目标域数据进行额外的预训练,从而改进了所有的预训练策略。最佳设置U_{WB}\rightarrow U_{src+tgt}\rightarrow U_{tgt}把所有现有的策略联系在了一起。为了进一步分析DAP的结果,图2(b)画出了目标未标记数据的掩码LM精度(MLM精度)与最终目标归一化精度之间的关系。在无标记目标数据上增加一个额外的预训练阶段毫不意外地提高了的精度。有趣的是,MLM精度的提高与实体链接精度的提高是一致的。在无监督目标数据上的性能反映了学习到的表示的质量,并与下游任务的性能有很好的相关性,这种方法适用于各种预训练策略。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,258评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,335评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,225评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,126评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,140评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,098评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,018评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,857评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,298评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,518评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,400评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,993评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,638评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,661评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容

  • 实体链接的相关研究有着重要的意义: 首先,实体链接有助于知识库自动填充的研究:知识库是现实中真实存在的实体的集合,...
    勤奋的Garfield阅读 6,404评论 0 5
  • 前面的文章主要从理论的角度介绍了自然语言人机对话系统所可能涉及到的多个领域的经典模型和基础知识。这篇文章,甚至之后...
    我偏笑_NSNirvana阅读 13,902评论 2 64
  • 知识图谱,是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过将数据粒度从document级别降到...
    姜雄_20e9阅读 17,508评论 0 35
  • 好多时候,好多事情,很多的解释就是逆天。如今几年的冬天,是否感觉逆人呢?曾经南方的温暖,曾经南方的优...
    文海一叶舟阅读 231评论 0 3
  • 早上起床WN就发起床气,不让我坐在他旁边,我懒,不想动,他兀自的发着脾气,磨蹭磨蹭的不下床,最后说,我要换短裤,你...
    jiazy2017阅读 154评论 0 1