文本向量化和文本分类方法

非常棒的一篇介绍文本分类的文章:http://contact.iteye.com/blog/2269152


参考1:http://www.07net01.com/2016/09/1667733.html

参考2 : https://www.zhihu.com/question/56121488

参考3: 流程:http://www.07net01.com/2016/09/1667733.html

              代码:http://blog.csdn.net/u014595019/article/details/52515616 

一、文本向量化

1、TFIDF                             示例代码:http://blog.csdn.net/lsldd/article/details/41520953

2、向量空间模型(VSM)    http://www.way51.cn/vector.html

3、word2vec 、doc2vec

二、文本分类     

在将文本向量化以后,就可以采用传统的分类方法了, 例如线性分类法线性核的svmrbf核的svm神经网络分类等方法。我在这个分类器中尝试了前3种,都可以由sklearn库来完成

以下方法均可调用sklearn包

1、线性分类法  【LR】

2、SVM类         【 线性核的svm 、rbf核的svm】      

     http://blog.csdn.net/orlandowww/article/details/52966608

3、文本分类的python实现-基于Xgboost算法

     http://blog.csdn.net/orlandowww/article/details/52967187

3、神经网络类     【fasttext、】

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容