下载地址
论文地址
Crowdsourcing multiple choice science questions
数据集说明
简要介绍
该数据集是一个高质量的、科学领域的多项选择数据集,由人工构造,共包含13,679 个多项选择题。
构建方式
1.选择该领域的教材作为原始资源
2.使用基于规则的方法,从教材中选择适合生成合理问题的片段
3.提供3个过滤出的片段供每个参与者选择/全不选择
4.定义期望的和不期望的问题示例供参考
5.一个参与者根据提供的片段问问题,并提供正确答案
6.训练模型从一个大集合中预测出的6个干扰选项
7.另一个参与者从6个干扰选项中最多选择2个使用
8.自己再想一个构成最终的3个干扰选项
数据示例
其中,support为回答该问题所需的外部知识。
数据集使用方式
版本1:用作多项选择题。(此时无需使用support,因为若使用support,对于问题来说答案就显而易见了。)
我们也可以看到,该数据集中数据基本都是常识类问题,若有背景知识,无需support也可回答问题。
另,也有使用该数据集进行外部知识使用研究的,如论文 What Does My QA Model Know? Devising Controlled Probes using Expert Knowledge
版本2:用作问答题。此时数据集仅包含support和question
数据质量
论文中提出使用了盲测评估数据的质量,随机了100个人工问题和100个数据集中问题,人工区分,发现55%的数据集中问题被识别出来,说明该数据集的质量接近纯人工数据质量。
相关实验
1.使用该数据集进行阅读理解、问答题实验,说明了该数据集可用于进行相关的研究。
2.使用SciQ进行真实科学问题回答时,效果如下:
上述实验结论表明,SciQ的问题分布与真实科学问题是相似的。
有趣的结论
标注数据中,干扰选项来自模型提供的6个候选的比例为36.1%(最高为66%,因为限制了最多只能选2个),在短答案上这个比例会更高、长答案上会更低一些,说明该模型产生的候选干扰选项效果还不错,后续进行干扰选项生成或评估可以参考该方法。