传统分类流程
1.定义阶段
pandas导入原始数据,需要自己贴标签
data.png
2.数据预处理
将content转换为list,结巴分词,去停用词,将label标签的中文替换为数字。
3.数据特征提取
可采用SVD、PCA等降维
sklearn中CountVectorizer或TfidfVectorizer(训练文本的数量越多,越有优势)方法来形成词向量(疏密矩阵),进行文本特征提取。
4.模型训练阶段
选择分类模型以及算法,训练出文本分类器。
5.评测阶段
在测试集上测试并评价分类器的性能
6.应用阶段
应用性能最高的分类模型对待分类文档进行分类
在文本分类问题中,我们通常要进行特征提取。文本的特征提取特别重要,体现这个系统做的好坏,分类的准确性,文本的特征需要自己构建,特征提取常用的有 n-gram 模型,ti-idf 模型、Bag-of-words模型。但是这些模型共同的特点就是太稀疏了。一般情况下需要 降维,比如 SVD,其实很多模型也可以用来进行特征选择比如 决策树,L1 正则 也可以用来进行特征选择。