基于jieba和doc2vec的中文情感语料分类

Chinese-sentiment-analysis-with-Doc2Vec

简介

中文语料的情感分析基本步骤如下：

开发环境Python-v3(3.6)：

        gensim==3.0.1
        jieba==0.39
        scikit-learn==0.19.1
        tensorflow==1.2.1
        numpy==1.13.1+mkl

在repo中有两个zip文件分别为train.zip和test.zip数据，当然你也可以直接在加载语料时将部分数据用作测试数据（详见后文）。

zip数据中为大量的txt文档，每一个的后缀是评分，例如72_1380108_2006-11-9_1.0.txt，那么该评分为1.0分（其实就是差评啦）。我们需要做的是将所有评分划分为1、2、3、4,5档，顾名思义就是评价由到坏到好。这里用了一些简单的字符串处理来获取分数并使用round函数来对分数取整。
将不同的评分txt按folder分类放好

    filter_chars = "\r\n，。；！,.:;：、"
    trans_dict = dict.fromkeys((ord(_) for _ in filter_chars), '')
    line = line.translate(trans_dict)

这里只要使用到了gensim.models.doc2vec，该模块提供了将不定长的文本映射到维度大小固定的向量的功能。这对于计算相似度还是用作后续的CNN分类器训练（后续有时间的话会实现基于TensorFlow的分类器）都是十分有帮助的。
具体的原理可以参考distributed-representations-of-sentences-and-documents
gensim doc2vec
本文旨在通过简单的示例介绍如何通过训练模型来自动判断某个新的输入评价是好评（5分）还是差评（1分），所以在后续的代码中，使用的样本就来自于这两类样本的集合（后续有时间的话会继续实现多分类问题）

    train, test, train_label, test_label = ms.train_test_split(
        train_arrays, train_labels, test_size=0.2)

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。