下载地址
https://www.cs.cmu.edu/~glai1/data/race/
论文地址
Race: Large-scale reading comprehension dataset from examinations
github地址
https://github.com/qizhex/RACE_AR_baselines
数据集说明
简要介绍
该数据集来自中国12-18岁之间的初中和高中英语考试阅读理解,包含28,000个短文、接近100,000个问题。包含用于评估学生理解能力的多种多样的主题。该数据集中的问题中需要推理的比例比其他数据集更高,也就是说,精度更高、难度更大。
数据示例
相关指标
阅读理解任务中,该数据集的天花板是:95%,论文发表时,模型最好效果:43%,目前最好效果已达到90.9%(近两年进展神速)
问题的推理类型
1.词匹配
2.释义
3.单句推理
4.多句推理
5.不恰当的/有歧义的:问题无答案或者基于给定的短文,答案不唯一
各推理类型所占比例:(随机选择100个短文共500个问题,找人标注)
推理类型细分
1.内容推理
2.全文理解
3.文章总结
4.态度分析
5.外部知识(world knowledge)
相关实验
论文在RACE和其他数据集中进行了阅读理解任务的实验,可以看到,各个模型在RACE上的效果通常低于其他数据集,说明了该数据集的难度更大,更有挑战。
上图是部分模型在不同推理类型的问题上的效果
其他
带有不同推理类型标签的数据好像没有开放
其他信息也可参考:https://www.zybuluo.com/songying/note/1312964