论文介绍
这是一篇发表于2004年的论文,据说该论文开创了用户评论情感分析的先河,作为电子商务网站的后台功能的一部分,这篇论文有比较重要的商业价值。本文的评论情感分析分为三个主要步骤:
1. 找出用户所评论的商品特征
2. 找出对特征的描述词,并且判断这些词是肯定还是否定
3. 将分析结果结构化的展示出来。
本文是一篇工程实践论文。论文并未对其中的某一项任务提出全新的算法,而是利用目前已有的各种算法来尽力完成工程所需要完成的目标。然后对于算法完成不太好的地方,尽量去设计一些规则去弥补,以保证整个系统的工程质量。最终论文用一些相对简单的规则就达到了当时的商业软件的准确率。
论文所提出系统的主要结构
1. 判断词性/词性标注
当时用的是NLProcessor。从评论中取出名词和名词短语作为待选词,还做了一些停用词干化和模糊匹配(用于处理拼写错误的单词)。
2. 频繁商品特征
事先声明,这个论文的系统只能识别显式的描述词,比如: “The pictures are very clear.”。就是描述picture的。不能识别隐式描述词,比如:“While light, it will not easily fit in pockets.” 就不能识别这句话描述的是size。
论文采用的关联挖掘来找出所有的商品特征,这些频繁出现的就是频繁特征。具体使用的算法是association miner CBA,定义关联支持度高于1%就作为频繁特征。这是Apriori algorithm的一个变种。
发现可能的特征后,作者使用两种方法进行进一步筛选,一是Compactness pruning,这个规则可以去掉没有连在一起的描述短语。
再就是Redundancy pruning,这个规则可以去掉重复的特征。
3. 情感单词抽取
仅找出那些与频繁商品特征相关的形容词,这些形容词的情感取向就代表了用户对该特征的描述。而既包含频繁商品特征,又包含形容词,那么就可以认为是有态度的句子。比如下面的句子:“The strap is horrible and gets in the way of parts of the camera you need access to.” 而里面的horrible就是情感单词,strap就是频繁特征。
4. 情感取向判断
手动标注一部分词的情感取向作为种子单词,然后以他们wordnet中的临近程度,来判断其他词的情感取向。同义词或者近义词,我们认为它们的情感取向也是一样的。
具体逻辑如下:
5. 非频繁商品特征
作者认为,用于形容频繁商品特征的形容词,往往也会用来形容其他的特征,所以被这些形容词形容的名词,很大概率也是商品特征。
6. 句子情感取向判断
表态的句子中,进行一个计数,肯定词多于否定词就判断这个句子是肯定的句子。一样多的话就看相邻句子的情感。流程如下:
7. 生成总结
这个就比较简单,便于展示阅读就好。形式如下: