自然语言论元的神经网络理解分析
链接:https://arxiv.org/pdf/1907.07355
代码:https://github.com/IKMLab/arct2
该研究发现在论元推理理解任务上BERT的最好表现为77%,低于未训练人类基线方法的表现平均值3个百分点。这个结果完全是由于数据集中欺骗性的统计线索的利用造成的。该文分析了这些线索的特点并说明一系列的模型都可以利用它们。此分析引申了对抗数据集的构建,在其之上所有的模型获得随机的准确率。对抗数据集提供了更为强健的对论元理解的评估能力并且在未来应作为标准。论点挖掘是自然语言文本中决定论点结构的任务,即哪些文本分段表示声明,哪些是支持或反对声明的理由。对机器学习器来说这是个挑战性的任务,对人类来说判断什么时候两个文本分段能代表论证关系是困难的。
解决这个问题的一种方法聚焦在依据上——可以推理的世界知识的一种形式。比如一个简单的论元:“(1)天在下雨;因此(2)你应该带伞。” 依据 “(3)弄湿了不好” 可以支持这个推理。不过依据一般是内含的,很难显式地找到它。因此这种方法下首先需要发现它们。
论元推理理解任务(ARCT)绕开了寻找依据的问题,主要聚焦于推理。任务中提供的论元包括声明C和理由R。此任务是为了在错误选择上提取正确的依据 W,叫做替代依据 A。替代写作 R A C。 之前例子的替代依据可以是 “(4)弄湿了挺好,” ,这样有 (1)(4)“(2)你不应该拿伞。”
即使提供依据,学习器仍需要进一步的世界知识。BERT在测试集上达到77%的准确率,仅低于人类基准3个百分点,没有世界知识很难期望它表现如此之好。这提出了一个问题:关于论元理解,BERT学习到了什么? 在SemEval子任务上的实验结果显示BERT充分利用了线索单词这样的虚假统计线索,特别是“not”。
不过研究显示主要的问题在ARCT中可以排除。由于RA C,可以对每个数据进行复制并声明为负并反转标签。对抗数据集上所有模型的表现是随机的,带有BERT的话,测试集的最高准确率为53%。对抗数据集提供了对论元理解更为强健的评估能力并且以后应作为标准。
任务描述和基准方法
索引 i = 1, . . . , n 代表数据集D中的每一个点,其中|D|=n 。每个案例中的两个候选依据被随机地赋值为二元标签 j {0,1},这样他们成为正确依据的概率是相等的。输入是声明 ,原因,依据0 和依据1。标签是二元指示器,代表依据是否正确。
所有模型的一般结构如图2所示。
共享参数用来学习对每一个依据结合论元进行独立的分类,产生logits:
这些输入连接在一起并传递经过softmax以确定两个依据的概率分布 。
因此预测值就是 。
基准方法是BoV、双向LSTM、GIST、Botschen et al.(2018)的最佳模型以及人类表现。
BERT
BERT分类器可由图3所见。声明和原因一起形成第一个文本分段,他们与依据配对并且独立地进行处理。最后一层的CLS向量经过一个线性层获得logits ,整个结构是经过调优的。Devlin et al. (2018)中指出,在小数据集上BERT有时会训练失败而产生较差的结果。ARCT非常小只有1210个训练样本。在20次运行中的5次出现了以上现象,验证集和测试集上随机准确率比较接近。这种情况在训练准确率不是明显高于随机值的情形下出现。去除较差的运行结果,BERT的平均准确率为,好于总体平均值。
统计线索
ARCT中虚假性的统计线索主要来源于依据上(因此标签上也是)语言学特征的不平均分布。这里说明这些线索的特点,仅考虑一元词和二元词的情况,然后说明模型如何更好地利用线索k,以及它在数据集中的普遍性。
在形式上,定义为依据中的token集合,为数据点,为标签。定义线索的适用性作为数据点的数量:
线索的生产率为可用数据点的比例:
最后定义线索的覆盖率作为基于全体数据点数量的可用案例的比例:。线索的生产率衡量的是利用的程度,覆盖率衡量的是信号的强度。对于m个标签,如果,那么线索的呈现将对任务有用且机器学习器会很好地使用它。
实验发现一元词在训练集中的生产率在比在测试集中更高,带有not的二元词也有较高的生产率。
探索实验
如果模型只在依据(W)上训练,那么表现比较好。同样的情况,比如移除声明保留原因和依据(R, W)或者移除原因保留声明和依据(C, W)。后者使模型额外地考虑原因和声明中的线索,以及他们和依据结合中的线索。实验结果由表3展示。在单一的依据(W)上,BERT取得最高71%的准确率,离77%的峰值还有6个百分点。实验发现对于(R, W)有4个点的提高,(C,W)提高2个点,这是缺失的6个点的原因。据此可以认为BERT的表现受到利用统计线索的很大影响。
对抗测试集
ARCT中,标签上统计线索的主要问题可由数据集的初始设计而被排除。给出,通过否定声明可以产生对抗样本并对每一个数据点反转标签 。然后对抗样本与原始数据进行合并,这省去了线索分布的映射问题。该研究尝试了两个实验,一个是模型在原始数据集上训练和验证,在对抗数据集上进行测试。所有的结果都比随机值差,原因是原始数据集中线索的过拟合。第二个实验是模型在对抗数据集上进行训练和验证,在对抗测试集上进行测试。结果由表4给出,BERT的峰值表现降到53%,平均值和中位数在50%。因此可以说对抗数据集按期望成功地排除了线索,在论元理解上提供了更为强健的评估能力。