A100-文本分类比赛

训练集格式:类别 文本

测试集格式:索引 文本

提交结果格式:索引 类别

思路:

1、文本向量化

     (方法:前期用TFIDF,后期用word2vec)

2、分类方法:

     方法: SVM  

                 fasttext


主要步骤:

1、生成词典

2、生成tfidf向量

3、生成lsi向量

4、分类器参数训练

5、对新文本进行分类。

前4个步骤可以看做是分类器的训练过程,而第五个阶段,则是使用训练得到的参数对新文本进行分类。


问题一、如何构建文本向量。如何用IFIDF将文本向量化,每一个文本的向量长度是否相同?

http://palydawn.blog.163.com/blog/static/18296905620124171155256/

http://blog.csdn.net/orlandowww/article/details/52966608?locationNum=2&fps=1


A100数据竞赛第一天结果:线性核 linear

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容