前言:
这篇论文提出了一个挖掘和总结客户评论的模型,即:Feature-based opinion summarization(基于特征的观点总结模型(自己理解翻译的)),这个模型考虑了很多实际应用场景,是一篇工程性很强的文章。
Feature-based opinion summarization 模型系统FBS的架构
文章的主体是FBS系统的构建,主要分为三步,这里也根据文章的脉络简要总结一下:
- 1、识别产品特征。
- 2、对 customer review的opinion sentences进行orientation的判定。
-
3、对结果进行组织输出。
Step 1: Mining product features that have been commented on by customers.
在这一步的工作中主要分为以下几个步骤:
- 对原始语料库进行POS tagging。因为特征一般为名词或名词词组,所以需要使用POS对预料进行处理,标注出每一个单词的词性。
- 识别特征。既然是基于特征的系统,那么首先需要将表示特征的词汇找出来,有些特征很明显,而有些特征隐含在语义中,本篇文章只关注了那些明显的特征。特征的挖掘方式是采用了基于关联规则(Apriori algorithm)的CBA方法。最后,再根据自然语言的特征对筛选出来的特征进行裁剪。这篇文章采用了两种方式进行了prune。这里注意一下作者采用了p-support的集合概念,如果特征出现在三个句子中并且句子中不包含特征的上层特征的话该特征就被加入到p-support集合中,否则就被剔除。
- opinion 词的抽取及对其做orientation判断。抽取部分比较简单。文章首先判断表达opinion的词一般为形容词,因此选取包含features的句子将形容词抽取出来,那些离feature近的形容词作为有效的opinion词。将opinion词抽取出来后需要判断其态度,本篇文章主要关注词的正面评价态度和负面评价态度。关于如何判断,之前的工作一般都是基于大语料库和统计方法实现的。本文巧妙地采用了bootstrapping方法利用了WordNet这个工具中的同义词反义词之前有关联的关系。因此能在仅有少量有标签的预料下得到大部分形容词的orientation。
- 再次识别特征。由于关联规则算法的缺陷,导致很多出现不频繁的特征词没有被筛选出来。本文采用了一种方法,即,在没有任何特征词出现的句子中,如果存在一个或多个opinion词,那么就将离opinion词最近的名词选择出来加入特征词。
Step 2: Predicting the orientations of opinion sentences.
- 判断句子的orientatuion。句子的orientation的判断比较简单,就是根据句子中所有的opinion词的orientation的统计。