2015年Hermann 等创立的两个非常棒的用于问答研究的数据集, 分别包含90k和197k个文档,,每个文档平均有4个问题。每个问题都是一个带有一个缺失单词/短语的句子,可以从随附的文档/上下文中找到。原作者热心地发布了脚本和附带的文档来生成数据集,但是并不太好用。纽约大学整理了数据集。我们又在该数据集基础上利用斯坦福nlp实验的分词工具进一步加工。
CNN
该数据集包含来自CNN新闻文章的文档和附带的问题。 有大约90k文件和380k问题。 提供问题集合,它应该足以从原始论文中重现设置,以及'stories /',这对于此数据集的其他用途非常有用。 我也提供原始的html文件,但我不能保证这些文件是完整
Daily Mail
此数据集包含每日邮报新闻文章中的文档和随附问题。 大约有197k文件和879k问题。 我正在提供'questions /',它应该足以从原始论文中重现设置,以及'stories /',这对于此数据集的其他用途非常有用。 我也提供原始的html文件,但我不能保证这些文件是完整的。
数据整理后百度网盘提供,或者私信