传统分类流程

传统分类流程

1.定义阶段

pandas导入原始数据,需要自己贴标签


data.png

2.数据预处理

将content转换为list,结巴分词,去停用词,将label标签的中文替换为数字。

3.数据特征提取

可采用SVD、PCA等降维
sklearn中CountVectorizer或TfidfVectorizer(训练文本的数量越多,越有优势)方法来形成词向量(疏密矩阵),进行文本特征提取。

4.模型训练阶段

选择分类模型以及算法,训练出文本分类器。

5.评测阶段

在测试集上测试并评价分类器的性能

6.应用阶段

应用性能最高的分类模型对待分类文档进行分类

在文本分类问题中,我们通常要进行特征提取。文本的特征提取特别重要,体现这个系统做的好坏,分类的准确性,文本的特征需要自己构建,特征提取常用的有 n-gram 模型,ti-idf 模型、Bag-of-words模型。但是这些模型共同的特点就是太稀疏了。一般情况下需要 降维,比如 SVD,其实很多模型也可以用来进行特征选择比如 决策树,L1 正则 也可以用来进行特征选择。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。