从研究框架上,该领域研究可分为无监督学习、半监督学习和有监督学习。目前,多数研究针对方面术语抽取、方面类别检测、方面术语情感分类和方面极性情感分类四个子任务之一进行技术研究,只有少量研究构建了多个子任务的联合模型。
方面术语抽取旨在从无结构的文本中抽取出其中包含的所有方面术语。值得注意的是,该子任务不仅要识别出表达了情感色彩的方面术语,还要识别没有表达情感的或情感为中性的方面术语。已有的方面术语抽取技术可以分为无监督、弱监督和有监督三类。其中,无监督模型基于频繁模式挖掘、句法规则、话题模型和深度学习等方法。弱监督模型基于词对齐、标签传播等方法。有监督模型将方面术语抽取任务视为词语级的序列标注问题,早期基于传统特征工程方法训练序列标注分类器。近年来基于深度学习的序列标注模型达到了目前方面术语抽取任务的最佳性能。
方面类别检测是根据一组预定义的方面类别,找出评论文本所有观点评价的方面类别。一个评论文本可以评价一个或多个方面类别,因此该任务是文本多标签分类任务的特例。早期一些研究基于话题模型实现了无监督的方面目标分类,但这些方面类别尚未遵循“实体#属性”的定义。近年来,SemEval评测会议发布方面类别检测任务基准数据集促进了基于深度学习的有监督模型和半监督模型的研究。
方面术语极性分类和方面类别极性分类分别对方面术语和方面类别确定评论文本对其表达的情感极性信息,本文统称为方面级极性分类。早期细粒度情感分类模型通常基于情感词典和人工规则等实现无监督的极性分类。随着,人工标注数据的发布,有监督的方面级极性分类成为了研究的主流方向。方面级极性分类是文本分类任务的特例,但有自身细节特点,即方面级极性分类需要判断文本语义特征是否与方面目标相关。随着深度学习技术的发展,基于传统特征工程的方法已逐步被深度神经网络的方法超越和取代。近年来,研究者利用注意力机制对评论文本和评价对象方面的依赖关系建模,并根据相关性捕捉关键信息,相对弱化不重要信息,来指导极性分类,使得方面级极性分类任务取得了突破性进展[55-60]。
一些研究尝试建立子任务联合模型。早期基于话题模型的方面术语抽取模型自动的按照话题将方面术语归类。近期,研究者尝试在序列标注模型的框架下,采用联合标注或者统一标注的方式,同时进行方面术语抽取和方面术语极性分类任务。