处理文本分类数据集——THUCNews数据

介绍THUCNews数据集

数据集转自:http://thuctc.thunlp.org/
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
以下是下载地址:
链接:https://pan.baidu.com/s/1zR5ymSBZ5wF0KJVpYVSb5g
提取码:5e76

提取标题进行短文本分类

首先,我们先来看一下这个压缩包的目录结构,如下图所示:包含了14个文件夹,每个文件夹是n篇文档,每个文档是一篇新闻,第一行是标题,后面是内容。

接下来,我们开始着手代码,把文章的标题提取出来。
我的基本思路是这样的:

  1. 分类提取,已“财经”文件夹为例:首先读取这个文件夹中的所有txt文档,取每个文档第一行,然后写入一个新的txt文档,写入格式为“财经+Tab符+第一行标题”
  2. 14个类别中分别挑出10%的数据作为验证集,剩下的10%作为训练集数据;
  3. 14个类别提取完毕之后,训练集合并为一个文档,验证集合并为一个文档,待用
    详细代码请见我的github:https://github.com/happyAmanda/cnewsExtractTitle
  4. 剔除无效数据:比如有些文档是空的
  5. 处理完毕,等待使用
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容