搜狐新闻数据400w+

  在之前的闲聊对话语料中提到,爬取了400w+新闻语料训练word2vec,考虑到这个平台数据质量比较高, 但是爬取的时候又有频率限制、网页打开慢、甚至有时候需要多次访问才能打开网页,经过几个月断断续续地爬取,在此把这部分数据公布给大家学习使用。这部分数据不仅可用来训练word2vec,还能进行做简单的新闻分类任务(可以通过url确定新闻的类别)。

数据特点

  1. 时间跨度:2009-10-19至2016-10-31,2534天的新闻
  2. 同一天的数据保存在以日期“20xxxxxx”格式命名的文件中,一则新闻一行
  3. 非节假日,一天有1400+篇新闻
  4. 爬取的新闻已进行抽取正文,每则新闻包含的字段有url、title、content(部分新闻可能没有content)
  5. 已通过url进行去重
  6. 数据量400w+,大小12G+

正文样例

下载链接:链接: https://pan.baidu.com/s/1qsKVEFnEpwbRRcs-NISkjA 密码: hwrh

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 目标 从头开始实践中文短文本分类,记录一下实验流程与遇到的坑 运用多种机器学习(深度学习 + 传统机器学习)方法比...
    王岳王院长阅读 14,858评论 4 59
  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 32,212评论 2 89
  • 犯错给人的感觉 大多数人都犯过错,只是多少不同,大小有差异而已。 说起犯错这个词,很多人就会在脑海里显现出各种自己...
    进化的小蜘蛛阅读 12,444评论 0 2
  • 参考:深入理解Android之AOP AOP虽然是方法论,但就好像OOP中的Java一样,一些先行者也开发了一套语...
    vonnie阅读 34,867评论 2 23
  • 最近一直在想,每天都在吼着没时间没时间,自己真的有那么忙吗?在感觉这么忙的情况下都做了些什么事呢?又有了些什么收获...
    Q空阅读 2,607评论 0 0

友情链接更多精彩内容