「自然语言处理(NLP)」---文本匹配模型研究(阿里团队)

来源:AINLPer微信公众号
编辑: ShuYini
校稿: ShuYini
时间: 2019-8-14

引言

    两篇文章与大家分享,第一篇作者对通用文本匹配模型进行探索,研究了构建一个快速优良的文本匹配模型所需条件,在此条件下,其模型性能与最先进的模型相当,且参数少速度快(6倍);第二篇主要研究了集成语言输入特征对神经网络模型产生的影响,并且发现输入特性对性能的影响比我们研究的任何体系结构参数都要大。

First Blood

TILE: Simple and Effective Text Matching with Richer Alignment Features.
Contributor : 南京大学&&阿里AI团队
Paper: https://www.aclweb.org/anthology/P19-1465
Code: https://github.com/hitvoice/RE2

文章摘要

    文中提出了一种快速、强悍神经网络方法来用于通用文本的匹配。我们研究了构建一个快速且性能良好的文本匹配模型的足够条件,并建议保持三个用于序列间对齐的关键特性:原始点对齐特性、先前对齐特性和上下文特性,同时简化所有剩余组件。我们在自然语言推理、意图识别和答案选择等任务中,对4个研究良好的基准数据集进行了实验。我们的模型性能与最先进的模型相当,并且使用的参数更少,除此之外,在推理速度方面与类似模型的相比,至少要快6倍。

本文模型算法RE2

    下图给出了总体架构的说明,两个文本序列在预测层前对称处理,除预测层中参数外的所有参数在两个序列之间共享。

    其中,对齐融合层的输入分为三个部分:原始点态特征(嵌入向量,用空白矩形表示)、先前对齐特征(剩余向量,用对角线矩形表示)和上下文特征(编码向量,用实矩形表示)。右边的架构与左边的架构相同,所以为了简洁起见省略了它。

Augmented Residual Connections(增强剩余链接)

    为了给对齐过程提供更丰富的特性,RE2采用了增强版的剩余连接来连接连续块。在增强剩余连接的情况下,对齐和融合层的输入分为三个部分,即原始的点方向特征(嵌入向量)、先前对齐特征(残差向量)和后编码层上下文特征(编码向量)。这三个部分在文本匹配过程中都起到了互补的作用。

AlignmentLayer(对齐层)

    对齐层(如上面架构图所示)将来自两个序列的特性作为输入,并计算对齐后的表示形式作为输出。

Fusion Layer(融合层)

    融合层比较三个透视图中的局部表示和对齐表示,然后将它们融合在一起。

Prediction Layer(预测层)

    预测层以池层中v1和v2两个序列的向量表示作为输入,预测最终目标。

实验结果

主要用到的测试集

    SNLI是一个用于自然语言推理的基准数据集。
    Scietail是一个由科学问答构成的分类数据集。
    Quora Question Pairs2 是一个用于意图识别的数据集,有两个类指示一个问题是否是另一个问题的意图。
    WikiQA是基于维基百科的基于检索的问答数据集。

自然语言推理上结果
意图识别结果
答案选择结果

Double Kill

TILE: Extending Neural Question Answering with Linguistic Input Features
Contributor : 比勒费尔德大学(德国)
Paper: https://www.aclweb.org/anthology/W19-5806
Code: None

文章摘要

    在一般领域数据集中,基于神经网络的问答已经取得了相当大的进展。为了探索有助于问答模型推广潜力的方法,我们重新实现了最先进的体系结构,在开放域数据集上执行参数搜索,并评估了集成语言输入特征(如部分语音标记、句法依赖关系和语义角色)的第一种方法。 实验结果表明,添加这些输入特性对性能的影响比我们研究的任何体系结构参数都要大。这些语言知识层有可能显著提高神经网络QA模型的泛化能力,从而促进跨域模型转移和领域无关的QA模型的开发。

利用语言输入特性扩展QANet

    为了评估神经网络QA模型中语言输入特性对齐产生的影响,我们利用QANet(作者重新实现)作为测试平台。当尝试将模型调整到其他领域时,这可能会发生意想不到的结果:虽然获取额外的训练数据代价比较大,但是这些语言输入特性可以通过提供尺度变换、领域无关的信息源来提高性能。我们使用三种不同的语言特性来扩展每个单词的输入:词性标注、依赖关系标记和语义角色。
    PoSTags(词性标注),我们假设输入标记的语音部分信息将有助于神经网络通过减少特定问题的答案候选数量,为了提取所有上下文与问题的PoStag,我们使用spaCy library数据集中的粗略PoStag。
    Dependency Relation Labels(依赖关系),我们使用spaCy提取问题和上下文的依赖信息。
    Semantic Roles(语义角色),语义角色标记(SRL)通过识别事件(谓词)及其参与者(语义角色)来发现句子中浅层的语义结构。
我们对Bert模型做了进一步的修改,其中主要修改的如下:
    QANet语言特征的整合,在标准的QANet体系结构中,单词和对应的字符被单独嵌入,然后连接起来,以获得每个输入单词的一个表示向量。在Sennrich和Haddow(2016)之后,我们通过将上面描述的每个语言输入特征映射到它自己的嵌入空间,然后将它们包含到连接中,从而丰富了这个过程。下图显示了QANet的输入嵌入层的更新版本,其中包括语言输入特性。

实验结果

    训练参数对实验结果的影响

    改变每种类型的输入特征及其组合的嵌入维数的结果
     三种语言输入特征相结合的结果

ACED

Attention

更多自然语言处理相关知识,还请关注AINLPer公众号,极品干货即刻送达。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,406评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,732评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,711评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,380评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,432评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,301评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,145评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,008评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,443评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,649评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,795评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,501评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,119评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,731评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,865评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,899评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,724评论 2 354

推荐阅读更多精彩内容