DeepMind Q&A Dataset-那些著名的数据集

2015年Hermann 等创立的两个非常棒的用于问答研究的数据集，分别包含90k和197k个文档，，每个文档平均有4个问题。每个问题都是一个带有一个缺失单词/短语的句子，可以从随附的文档/上下文中找到。原作者热心地发布了脚本和附带的文档来生成数据集,但是并不太好用。纽约大学整理了数据集。我们又在该数据集基础上利用斯坦福nlp实验的分词工具进一步加工。

CNN

Questions: here
Stories: here
Raw HTML: here

该数据集包含来自CNN新闻文章的文档和附带的问题。有大约90k文件和380k问题。提供问题集合，它应该足以从原始论文中重现设置，以及'stories /'，这对于此数据集的其他用途非常有用。我也提供原始的html文件，但我不能保证这些文件是完整

Daily Mail

Questions: here
Stories: here
Raw HTML: here

此数据集包含每日邮报新闻文章中的文档和随附问题。大约有197k文件和879k问题。我正在提供'questions /'，它应该足以从原始论文中重现设置，以及'stories /'，这对于此数据集的其他用途非常有用。我也提供原始的html文件，但我不能保证这些文件是完整的。

数据整理后百度网盘提供，或者私信

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

DeepMind Q&A Dataset-那些著名的数据集

DeepMind Q&A Dataset-那些著名的数据集

CNN

Daily Mail

相关阅读更多精彩内容

友情链接更多精彩内容