自然语言论元的神经网络理解分析

链接：https://arxiv.org/pdf/1907.07355

该研究发现在论元推理理解任务上BERT的最好表现为77%，低于未训练人类基线方法的表现平均值3个百分点。这个结果完全是由于数据集中欺骗性的统计线索的利用造成的。该文分析了这些线索的特点并说明一系列的模型都可以利用它们。此分析引申了对抗数据集的构建，在其之上所有的模型获得随机的准确率。对抗数据集提供了更为强健的对论元理解的评估能力并且在未来应作为标准。论点挖掘是自然语言文本中决定论点结构的任务，即哪些文本分段表示声明，哪些是支持或反对声明的理由。对机器学习器来说这是个挑战性的任务，对人类来说判断什么时候两个文本分段能代表论证关系是困难的。

解决这个问题的一种方法聚焦在依据上——可以推理的世界知识的一种形式。比如一个简单的论元：“(1)天在下雨；因此(2)你应该带伞。” 依据 “(3)弄湿了不好” 可以支持这个推理。不过依据一般是内含的，很难显式地找到它。因此这种方法下首先需要发现它们。

论元推理理解任务(ARCT)绕开了寻找依据的问题，主要聚焦于推理。任务中提供的论元包括声明C和理由R。此任务是为了在错误选择上提取正确的依据 W，叫做替代依据 A。替代写作 R $\wedge$ A $\longrightarrow$ $\neg$ C。之前例子的替代依据可以是 “(4)弄湿了挺好，” ，这样有 (1) $\wedge$ (4) $\longrightarrow$ “( $\neg$ 2)你不应该拿伞。”

即使提供依据，学习器仍需要进一步的世界知识。BERT在测试集上达到77%的准确率，仅低于人类基准3个百分点，没有世界知识很难期望它表现如此之好。这提出了一个问题：关于论元理解，BERT学习到了什么？在SemEval子任务上的实验结果显示BERT充分利用了线索单词这样的虚假统计线索，特别是“not”。

不过研究显示主要的问题在ARCT中可以排除。由于R $\land$ A $\longrightarrow$ $\neg$ C，可以对每个数据进行复制并声明为负并反转标签。对抗数据集上所有模型的表现是随机的，带有BERT的话，测试集的最高准确率为53%。对抗数据集提供了对论元理解更为强健的评估能力并且以后应作为标准。

任务描述和基准方法

索引 i = 1, . . . , n 代表数据集D中的每一个点，其中|D|=n 。每个案例中的两个候选依据被随机地赋值为二元标签 j $\in$ {0,1}，这样他们成为正确依据的概率是相等的。输入是声明 $c^{(i)}$ ，原因 $r^{(i)}$ ，依据0 $w_{0}^{(i)}$ 和依据1 $w_{1}^{(i)}$ 。标签 $y^{(i)}$ 是二元指示器，代表依据是否正确。

所有模型的一般结构如图2所示。

共享参数 $\theta$ 用来学习对每一个依据结合论元进行独立的分类，产生logits：

$z_j^{(i)}=\theta [c^{(i)} ;r^{(i)};w_{j}^{(i)}]$

这些输入连接在一起并传递经过softmax以确定两个依据的概率分布 $P^{(i)} =$ $softmax([z_0^{(i)},z_1^{(i)}])$ 。

因此预测值就是 $\hat{y}^{(i)} =$ $argmax_jP^{(i)}$ 。

基准方法是BoV、双向LSTM、GIST、Botschen et al.(2018)的最佳模型以及人类表现。

BERT

BERT分类器可由图3所见。声明和原因一起形成第一个文本分段，他们与依据配对并且独立地进行处理。最后一层的CLS向量经过一个线性层获得logits $z_j^{(i)}$ ，整个结构是经过调优的。Devlin et al. (2018)中指出，在小数据集上BERT有时会训练失败而产生较差的结果。ARCT非常小只有1210个训练样本。在20次运行中的5次出现了以上现象，验证集和测试集上随机准确率比较接近。这种情况在训练准确率不是明显高于随机值的情形下出现。去除较差的运行结果，BERT的平均准确率为 $71.6\pm0.04$ ，好于总体平均值。

统计线索

ARCT中虚假性的统计线索主要来源于依据上(因此标签上也是)语言学特征的不平均分布。这里说明这些线索的特点，仅考虑一元词和二元词的情况，然后说明模型如何更好地利用线索k，以及它在数据集中的普遍性。

在形式上，定义 $T_j^{(i)}$ 为依据中的token集合， $i$ 为数据点， $j$ 为标签。定义线索的适用性 $\alpha_k$ 作为数据点的数量：

$\alpha_k=\sum_{i=1}^n\Big[\exists j,k\in T_j^{(i)}\land k\notin T_{\neg j}^{(i)}\Big]$

线索的生产率 $\pi_k$ 为可用数据点的比例：

$\pi_k=\frac{\sum\nolimits_{i=1}^n1\Big[\exists j,k\in T_j^{(i)}\land k\notin T_{\neg j}^{(i)}\land y_i=j\Big] }{\alpha_k}$

最后定义线索的覆盖率 $\xi_k$ 作为基于全体数据点数量的可用案例的比例： $\xi_k=\alpha_k/n$ 。线索的生产率衡量的是利用的程度，覆盖率衡量的是信号的强度。对于m个标签，如果 $\pi_k>1/m$ ，那么线索的呈现将对任务有用且机器学习器会很好地使用它。

实验发现一元词在训练集中的生产率在比在测试集中更高，带有not的二元词也有较高的生产率。

探索实验

如果模型只在依据（W）上训练，那么表现比较好。同样的情况，比如移除声明保留原因和依据（R, W）或者移除原因保留声明和依据（C, W）。后者使模型额外地考虑原因和声明中的线索，以及他们和依据结合中的线索。实验结果由表3展示。在单一的依据（W）上，BERT取得最高71%的准确率，离77%的峰值还有6个百分点。实验发现对于（R, W）有4个点的提高，（C，W）提高2个点，这是缺失的6个点的原因。据此可以认为BERT的表现受到利用统计线索的很大影响。

对抗测试集

ARCT中，标签上统计线索的主要问题可由数据集的初始设计而被排除。给出 $R\land A\rightarrow \neg C$ ，通过否定声明可以产生对抗样本并对每一个数据点反转标签。然后对抗样本与原始数据进行合并，这省去了线索分布的映射问题。该研究尝试了两个实验，一个是模型在原始数据集上训练和验证，在对抗数据集上进行测试。所有的结果都比随机值差，原因是原始数据集中线索的过拟合。第二个实验是模型在对抗数据集上进行训练和验证，在对抗测试集上进行测试。结果由表4给出，BERT的峰值表现降到53%，平均值和中位数在50%。因此可以说对抗数据集按期望成功地排除了线索，在论元理解上提供了更为强健的评估能力。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,258评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,335评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,225评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,126评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,140评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,098评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,018评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,857评论 0赞 273
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,298评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,518评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,678评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,400评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,993评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,638评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,801评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,661评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,558评论 2赞 352

自然语言论元的神经网络理解分析

自然语言论元的神经网络理解分析

任务描述和基准方法

BERT

统计线索

探索实验

对抗测试集

推荐阅读更多精彩内容