GLUE数据集介绍

GLUE是一个自然语言处理的综合性测试数据集,该数据集的论文发表于2019年的ICLR。它集成了9个以往的数据集,数据集任务涵盖单句分类、句对分类和回归任务,GLUE集成时对于部分以前的数据进行了任务上的修改。以下是9个包含的数据集。

单句任务

单句任务基本都是分类,情感分类(SST-2)、是否符合语法(CoLA)

CoLA

全称是Corpus of Linguistic Acceptability (语言可接受性语料库),任务是判断一句话是否符合语法,内容全部为英文。发表于2018年,语料全部摘抄自讲英文语法文章或者书籍。
有8500条训练集,1000条测试集,句子都不长,看示例很多句子都是10个单词以内,长度坑可能也就十几个单词。任务就是做一个二分类,判断这个句子是/否符合语法。
评估标注是Matthews Correlation(马修斯相关系数),其定义MCC如下:

MCC = \frac{TP \times TN - FP \times FN}{\sqrt{(TP + FP) \times (TP + FN) \times (TN+FP) \times (TN+FN)}}

感性解释下MCC,分子是所有预测正确的乘积减去所有预测错误的乘积,分母的4项分别代表“所有预测为1的”、“所有标签为1的”、“所有标签为0的”、“所有预测为0的”。这个指标的取值范围是-1到1,1表示完全正确,-1表示预测完全错误,0表示和盲猜结果差不多(当盲猜的策略和数据集先验刚好一致时,盲猜的结果就是0)。
和其他指标相比,马修斯相关性在数据集不平衡是评估更为全面。比如TP=90, FP=4, TN=1, FN=5时,可以算法此时的F1值为0.9524,而MCC却只有0.14,这意味着当前分类器基本时弱相关的,它的预测接近随机预测的水平。因此,如果仅从F1值的得分来看,很容易误导我们说当前的分类器非常的棒~毕竟都上到95.24分。再考虑这种情况,当TP=1, FP=5, TN=90, FN=4时,此时F1值和MCC值分别为0.18和0.10,可见MCC在针对类别不平衡情况下的鲁棒性是更好的。

SST-2

全称是The Stanford Sentiment Treebank,给定一个句子判定这个句子的情感,是positive还是negative,数据集发布于2013年。内容来自电影评论,标签是人标的。
样本个数:训练集67,350个,开发集873个,测试集1,821个。
评估标准是准确率ACC:

ACC = \frac{TP + TN}{TP + TN + FP+ FN}

相似性与段落任务

任务组要是判断两个句子之间的关系,MRPC和QQP就是判断两个句子是不是表达同一个意思,和推理任务相比关系更简答。STS-B是判断两个句子之间的相关性。

MRPC

全称是Microsoft Research Paraphrase Corpus,公开于2005年。任务是给定两个句子,判定这两个句子是否表达的是同一个意思,内容摘自新闻,标签是人打的。数据集不是很平衡,68%都是正样本。
有3700个训练数据,1700条测试数据。
评估指标是准确率ACC和F1-Score。F1-Score的缺点可能是没考虑TN,没有马修斯相关系数全面,但F1-Score比ACC好。

F1-Score = \frac{2 \times precision \times recall}{precision + recall}

QQP

全称是Quora Question Pairs,是这几个数据集里第二大的数据集。任务是判断两句话(两个问题)是否表达同一个意思。数据集不均衡,63%的数据是负样本。
数据集包含364000条训练数据和391000条测试数据。
评估标准是准确率ACC和F1-Score。

STS-B

全称是Semantic Textual Similarity Benchmark,公开于2017年。任务是判断两个句子之间的相似性,分数从1到5。语料摘自新闻标题、视频图像标题等。
数据集有7000训练数据和1400测试数据。
评估指标是线性相关系数或斯皮尔曼相关性系数。

推理任务

以下4个推断任务基本都是判断entail关系,和相似性任务相比更偏语义,即句子之间的语义是否矛盾、蕴含(MNLI和RTE),句子中是否有某个问题的答案(QNLI),代词指代的是哪个对象(WNLI)等等。

MNLI

全称是Multi-Genre Natural Language Inference Corpus,发表于2018年。任务是给两句话,一个前提一个假设,判断前提能够推出假设(entail the hypothesis)、还是反驳了假设(contradict the hypothesis)还是中立(neither, namely neutral)。
这是几个数据集里最大的,包含393000条训练数据和20000条测试数据。
评估标准是matched acc和mismatched acc(这里不明白)

QNLI

全称是Stanford Question Answering Dataset,发布于2016年。这个数据集原本是QA数据集(听说叫SQuAD 1.0),A是从wiki上摘录的文本,Q是标准人员给的问题,A是段落,一般A中某句话就是Q的答案。在GLUE中,数据集发生了变化,就是给定两句话,一个问题一个答案,判断这个答案是否回答了这个问题,变成一个二分类任务。
数据集包含105000条训练集,5400条测试集。

RTE

全称是Recognizing Textual Entailment,数据集整合了分别发布于2006、2007、2009年的RTE-1/-2/-3三个数据集。语料来源是维基百科和新闻。任务是给定两句话,判定他们之间的关系:蕴含、矛盾和无关。
数据集不大,有2500条训练数据和3000条测试数据。
评估标准是准确率ACC。

WNLI

这个数据集原本是判断句子中某个代词指代的是哪个对象,GLUE把这个任务转化为了分类任务。即用名词替换某个代词,然后判断原句和替换后的句子是否是entail关系。如果代词替换正确,就是正样本,否则就是负样本。
一共有634条训练数据和146条测试数据。训练集正负样本是均衡的,测试集样本不均衡,65%是负样本。
评估标注是准确率ACC.

例子:The actress used to be named Terpsichore, but she changed it to Tina a few years ago, because she figured it was too hard to pronounce.
Terpsichore was too hard to pronounce. 这两个句子就是正样本

参考文献

[1] https://zhuanlan.zhihu.com/p/135283598
[2] https://arxiv.org/pdf/1804.07461.pdf

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,039评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,223评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,916评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,009评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,030评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,011评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,934评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,754评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,202评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,433评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,590评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,321评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,917评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,568评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,738评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,583评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,482评论 2 352

推荐阅读更多精彩内容