一、什么是情感分析
文本情感分析:是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。按照处理文本的类别不同,可分为:
- 基于新闻评论的情感分析,用于舆情监控
- 基于股票评论的情感分析,把握股票走势
- 基于产品评论的情感分析,帮助商家了解产品在用户心中的口碑。
目前,情感分析主要方法如下:
- 基于情感词典的情感分析
- 基于机器学习的情感分析
- 基于深度学习的情感分析
本文主要讲解基于情感词典的情感分析方法。
二、数据准备
1、情感词典
每个词语权值设置为1,可以自行设置。
- pos_dict
- neg_dict
2、程度副词词典
不同程度的副词对应不同的权重
- most - 2
- very - 1.5
- more - 1.25
- ish - 0.5
- insufficient - 0.25
- inversed - 负 1
3、停用词词典和自定义词典
自定义词典用于提高分词准确度
三、模型分析
1、文本预处理
- 文本分句
- 文本分词
- 去除停用词
...
2、计算句子得分
循环遍历句子中的单词,如果是 neg,则 neg_score 加 1,判断 neg_word 前边是否存在副词,如果存在则剩以相应权重。最终 pos_socre-neg_score 的值为最终得分,大于 0 则为 pos,否则为 neg。
这个游戏不是太好玩。
分词结果[这个/游戏/不是/太好玩 ]
依次遍历每个单词,当遍历到“太好玩”(+1)在 pos 词典出现,则往前遍历是否出现程度副词,“不是(-1)”出现,则最终得分为 -1。