处理文本分类数据集——THUCNews数据

介绍THUCNews数据集

数据集转自：http://thuctc.thunlp.org/
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
以下是下载地址：
链接：https://pan.baidu.com/s/1zR5ymSBZ5wF0KJVpYVSb5g
提取码：5e76

提取标题进行短文本分类

首先，我们先来看一下这个压缩包的目录结构，如下图所示：包含了14个文件夹，每个文件夹是 $n$ 篇文档，每个文档是一篇新闻，第一行是标题，后面是内容。

接下来，我们开始着手代码，把文章的标题提取出来。
我的基本思路是这样的：

分类提取，已“财经”文件夹为例：首先读取这个文件夹中的所有txt文档，取每个文档第一行，然后写入一个新的txt文档，写入格式为“财经+Tab符+第一行标题”
14个类别中分别挑出10%的数据作为验证集，剩下的10%作为训练集数据；
14个类别提取完毕之后，训练集合并为一个文档，验证集合并为一个文档，待用
详细代码请见我的github：https://github.com/happyAmanda/cnewsExtractTitle
剔除无效数据：比如有些文档是空的
处理完毕，等待使用

处理文本分类数据集——THUCNews数据

介绍THUCNews数据集

提取标题进行短文本分类

推荐阅读更多精彩内容