GLUE是一个自然语言处理的综合性测试数据集,该数据集的论文发表于2019年的ICLR。它集成了9个以往的数据集,数据集任务涵盖单句分类、句对分类和回归任务,GLUE集成时对于部分以前的数据进行了任务上的修改。以下是9个包含的数据集。
单句任务
单句任务基本都是分类,情感分类(SST-2)、是否符合语法(CoLA)
CoLA
全称是Corpus of Linguistic Acceptability (语言可接受性语料库),任务是判断一句话是否符合语法,内容全部为英文。发表于2018年,语料全部摘抄自讲英文语法文章或者书籍。
有8500条训练集,1000条测试集,句子都不长,看示例很多句子都是10个单词以内,长度坑可能也就十几个单词。任务就是做一个二分类,判断这个句子是/否符合语法。
评估标注是Matthews Correlation(马修斯相关系数),其定义MCC如下:
感性解释下MCC,分子是所有预测正确的乘积减去所有预测错误的乘积,分母的4项分别代表“所有预测为1的”、“所有标签为1的”、“所有标签为0的”、“所有预测为0的”。这个指标的取值范围是-1到1,1表示完全正确,-1表示预测完全错误,0表示和盲猜结果差不多(当盲猜的策略和数据集先验刚好一致时,盲猜的结果就是0)。
和其他指标相比,马修斯相关性在数据集不平衡是评估更为全面。比如TP=90, FP=4, TN=1, FN=5时,可以算法此时的F1值为0.9524,而MCC却只有0.14,这意味着当前分类器基本时弱相关的,它的预测接近随机预测的水平。因此,如果仅从F1值的得分来看,很容易误导我们说当前的分类器非常的棒~毕竟都上到95.24分。再考虑这种情况,当TP=1, FP=5, TN=90, FN=4时,此时F1值和MCC值分别为0.18和0.10,可见MCC在针对类别不平衡情况下的鲁棒性是更好的。
SST-2
全称是The Stanford Sentiment Treebank,给定一个句子判定这个句子的情感,是positive还是negative,数据集发布于2013年。内容来自电影评论,标签是人标的。
样本个数:训练集67,350个,开发集873个,测试集1,821个。
评估标准是准确率ACC:
相似性与段落任务
任务组要是判断两个句子之间的关系,MRPC和QQP就是判断两个句子是不是表达同一个意思,和推理任务相比关系更简答。STS-B是判断两个句子之间的相关性。
MRPC
全称是Microsoft Research Paraphrase Corpus,公开于2005年。任务是给定两个句子,判定这两个句子是否表达的是同一个意思,内容摘自新闻,标签是人打的。数据集不是很平衡,68%都是正样本。
有3700个训练数据,1700条测试数据。
评估指标是准确率ACC和F1-Score。F1-Score的缺点可能是没考虑TN,没有马修斯相关系数全面,但F1-Score比ACC好。
QQP
全称是Quora Question Pairs,是这几个数据集里第二大的数据集。任务是判断两句话(两个问题)是否表达同一个意思。数据集不均衡,63%的数据是负样本。
数据集包含364000条训练数据和391000条测试数据。
评估标准是准确率ACC和F1-Score。
STS-B
全称是Semantic Textual Similarity Benchmark,公开于2017年。任务是判断两个句子之间的相似性,分数从1到5。语料摘自新闻标题、视频图像标题等。
数据集有7000训练数据和1400测试数据。
评估指标是线性相关系数或斯皮尔曼相关性系数。
推理任务
以下4个推断任务基本都是判断entail关系,和相似性任务相比更偏语义,即句子之间的语义是否矛盾、蕴含(MNLI和RTE),句子中是否有某个问题的答案(QNLI),代词指代的是哪个对象(WNLI)等等。
MNLI
全称是Multi-Genre Natural Language Inference Corpus,发表于2018年。任务是给两句话,一个前提一个假设,判断前提能够推出假设(entail the hypothesis)、还是反驳了假设(contradict the hypothesis)还是中立(neither, namely neutral)。
这是几个数据集里最大的,包含393000条训练数据和20000条测试数据。
评估标准是matched acc和mismatched acc(这里不明白)
QNLI
全称是Stanford Question Answering Dataset,发布于2016年。这个数据集原本是QA数据集(听说叫SQuAD 1.0),A是从wiki上摘录的文本,Q是标准人员给的问题,A是段落,一般A中某句话就是Q的答案。在GLUE中,数据集发生了变化,就是给定两句话,一个问题一个答案,判断这个答案是否回答了这个问题,变成一个二分类任务。
数据集包含105000条训练集,5400条测试集。
RTE
全称是Recognizing Textual Entailment,数据集整合了分别发布于2006、2007、2009年的RTE-1/-2/-3三个数据集。语料来源是维基百科和新闻。任务是给定两句话,判定他们之间的关系:蕴含、矛盾和无关。
数据集不大,有2500条训练数据和3000条测试数据。
评估标准是准确率ACC。
WNLI
这个数据集原本是判断句子中某个代词指代的是哪个对象,GLUE把这个任务转化为了分类任务。即用名词替换某个代词,然后判断原句和替换后的句子是否是entail关系。如果代词替换正确,就是正样本,否则就是负样本。
一共有634条训练数据和146条测试数据。训练集正负样本是均衡的,测试集样本不均衡,65%是负样本。
评估标注是准确率ACC.
例子:The actress used to be named Terpsichore, but she changed it to Tina a few years ago, because she figured it was too hard to pronounce.
Terpsichore was too hard to pronounce. 这两个句子就是正样本
参考文献
[1] https://zhuanlan.zhihu.com/p/135283598
[2] https://arxiv.org/pdf/1804.07461.pdf