登录注册写文章

RACE数据集

RACE数据集

下载地址

https://www.cs.cmu.edu/~glai1/data/race/

论文地址

Race: Large-scale reading comprehension dataset from examinations

github地址

https://github.com/qizhex/RACE_AR_baselines

数据集说明

简要介绍

该数据集来自中国12-18岁之间的初中和高中英语考试阅读理解，包含28,000个短文、接近100,000个问题。包含用于评估学生理解能力的多种多样的主题。该数据集中的问题中需要推理的比例比其他数据集更高，也就是说，精度更高、难度更大。

数据示例

相关指标

阅读理解任务中，该数据集的天花板是：95%，论文发表时，模型最好效果：43%，目前最好效果已达到90.9%（近两年进展神速）

问题的推理类型

1.词匹配
2.释义
3.单句推理
4.多句推理
5.不恰当的/有歧义的：问题无答案或者基于给定的短文，答案不唯一
各推理类型所占比例：（随机选择100个短文共500个问题，找人标注）

推理类型细分

1.内容推理
2.全文理解
3.文章总结
4.态度分析
5.外部知识（world knowledge）

相关实验

论文在RACE和其他数据集中进行了阅读理解任务的实验，可以看到，各个模型在RACE上的效果通常低于其他数据集，说明了该数据集的难度更大，更有挑战。

上图是部分模型在不同推理类型的问题上的效果

其他

带有不同推理类型标签的数据好像没有开放
其他信息也可参考：https://www.zybuluo.com/songying/note/1312964

最后编辑于：2020.04.24 11:51:26

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

大数据分类探究
云安全联盟大数据工作组发布译者：李毅中国惠普大学资深培训专家 ** 摘要 **在本文中，我们提出了一个大数据...
Leo_Liyi阅读 11,437评论 0赞 22
吃饭不如吃瓜 | 还妄想插翅飞舞？
时隔两年，李小璐、PGone因多段亲密视频外泄再次登上热搜被吃瓜群众所关注，这场闹剧经历了两年时间丝毫没有收尾的意...
oh_d4c9阅读 3,671评论 0赞 1
2019-07-14
加油加油加油加油加油
c5a543aceb7f阅读 861评论 0赞 0
集合框架(去除ArrayList集合中的重复字符串元素案例1)
核心代码：邮箱：ithelei@sina.cn 技术讨论群：687856230 GoodLuck
养码哥阅读 3,301评论 0赞 0

1赞2赞

赞赏

手机看全文