DeepMind Q&A Dataset-那些著名的数据集

2015年Hermann 等创立的两个非常棒的用于问答研究的数据集, 分别包含90k和197k个文档,,每个文档平均有4个问题。每个问题都是一个带有一个缺失单词/短语的句子,可以从随附的文档/上下文中找到。原作者热心地发布了脚本和附带的文档来生成数据集,但是并不太好用。纽约大学整理了数据集。我们又在该数据集基础上利用斯坦福nlp实验的分词工具进一步加工。

CNN

该数据集包含来自CNN新闻文章的文档和附带的问题。 有大约90k文件和380k问题。 提供问题集合,它应该足以从原始论文中重现设置,以及'stories /',这对于此数据集的其他用途非常有用。 我也提供原始的html文件,但我不能保证这些文件是完整

Daily Mail

此数据集包含每日邮报新闻文章中的文档和随附问题。 大约有197k文件和879k问题。 我正在提供'questions /',它应该足以从原始论文中重现设置,以及'stories /',这对于此数据集的其他用途非常有用。 我也提供原始的html文件,但我不能保证这些文件是完整的。

数据整理后百度网盘提供,或者私信

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 32,189评论 2 89
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 176,368评论 25 709
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 136,148评论 19 139
  • 股市中有个恒古不变的现象:长期来看总是70%的股民在赔钱,20%的股民在保本,只有10%的股民在赚钱。 而大盘在长...
    我是刘良阅读 1,486评论 0 0

友情链接更多精彩内容