传统分类流程

1.定义阶段

pandas导入原始数据，需要自己贴标签

data.png

2.数据预处理

将content转换为list，结巴分词，去停用词，将label标签的中文替换为数字。

3.数据特征提取

可采用SVD、PCA等降维
sklearn中CountVectorizer或TfidfVectorizer（训练文本的数量越多，越有优势）方法来形成词向量（疏密矩阵），进行文本特征提取。

4.模型训练阶段

选择分类模型以及算法，训练出文本分类器。

5.评测阶段

在测试集上测试并评价分类器的性能

6.应用阶段

应用性能最高的分类模型对待分类文档进行分类

在文本分类问题中，我们通常要进行特征提取。文本的特征提取特别重要，体现这个系统做的好坏，分类的准确性，文本的特征需要自己构建，特征提取常用的有 n-gram 模型，ti-idf 模型、Bag-of-words模型。但是这些模型共同的特点就是太稀疏了。一般情况下需要降维，比如 SVD，其实很多模型也可以用来进行特征选择比如决策树，L1 正则也可以用来进行特征选择。