《Aspect Term Extraction for Sentiment Analysis》阅读笔记

New Datasets, New Evaluation Measures and an Improved Unsupervised Method

ATE：aspect term extraction

ABSA：aspect based sentiment analysis

文章假设搜索引擎获取到用户对某件实体(a particular target entity)的评价

ABAS系统主要包括三个子任务:

1) Aspect term extraction 2）Aspect term sentiment estimation分类 3) Aspect aggregation

文章主要关注点在：aspect term extraction(ATE)

文章的contribution：1) 过去的数据集存在的问题：来自某特定领域或者是很少target entities的评价或者不包含aspect term的注释，所以文章提供三个新的数据集（restaurants, laptops, hotels），并且有gold annotations of all aspect term occurrences，measured inter-annotator agreement注释间的一致性 2) 普遍使用的evaluation measures不是所有都是satisfactory的，例如，经常使用的precision, recall, 和 F-measure 通过计算aspect terms的距离，频繁出现的aspect term和不频繁出现的是equal weight的，然而经常讨论的aspect terms应该是更重要的。文章提出了权重不同的precision和recall 3）方法

查了一下inter-annotator agreement，链接是：https://corpuslinguisticmethods.wordpress.com/2014/01/15/what-is-inter-annotator-agreement/

Inter-annotator agreement is a measure of how well two (or more) annotators can make the same annotation decision for a certain category.

Aspect term extraction methods:

1) baseline: dubbed FREQ，返回最频繁的不同的名词和名词短语 2) Hu and Liu的方法：给baseline增加pruning mechanisms(剪枝机制)，发现更多的aspect terms （dubbed H&L）3）对H&L方法的扩展，增加了pruning step（dubbed H&L+w2v）4）类似的（dubbed FREQ+w2v）

所有方法都是unsupervised

FREQ baseline：返回频率最高的名词和名词短语，并排序

H&L的方法：首先提取不同的名词和名词短语，作为aspect term的备选。然后通过连接成对或三个同时出现在一个句子中的aspect terms生成更长的candidate aspect terms。所有aspect term按照decreasing p-support排序，p-support是包含apect term句子的个数，除去某个含有子term的，例如aspect term有“battery life”和"battery"，那么在句子"The battery life was good"计算在"battery life"的p-support，而不计算在"batter"的p-support中。通过剪枝进行自纠正，首先抛弃"non-conpact"的multi-word distinct aspect terms，例如"battery life screen" appears in non-compact form in "battery life is way better than screen"；然后，如果某个candidate distinct aspect term t的p-support比3小，t is subsumed（包括） by another candidate distinct aspect term t撇，那么t删掉。然后，一组"opinion of adjectives"被组成，对每个句子和每个candidate distinct aspect term t 出现在句子中的，句子中距离t最近的adjective增加到一组opinion adjectives中，然后句子被重新扫描，如果句子中不包含任何candidate aspect term但是包括一个opinion adjective，然后最接近opinion adjective的名词添加到candidate distinct aspect terms。

H&L+W2V：输入变成continuous vector space representations of words，使用神经网络，剪枝步骤使用最频繁的十个candidate distinct aspect terms，然后计算每个向量的centroid，称为domain centroid；相似的，计算the Brown Corpus(news category)中的最频繁的20个词，除去停用词和短于3个字符的词，称为common language centroid。任意candidate distinct aspect term的vector的距离更接近common language centroid而不是the domain centroid，会被删除。接近common language centroid的是common words，而接近domain centroids 的是domain-specific concepts，更有可能是aspect terms。

FREQ+W2V：增加了pruning step，同H&L+W2V，距离。

实验结果：

最后编辑于：2017.12.10 15:27:25

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 213,992评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,212评论 3赞 388
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 159,535评论 0赞 349
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,197评论 1赞 287
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,310评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,383评论 1赞 292
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,409评论 3赞 412
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,191评论 0赞 269
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,621评论 1赞 306
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,910评论 2赞 328
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,084评论 1赞 342
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,763评论 4赞 337
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,403评论 3赞 322
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,083评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,318评论 1赞 267
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,946评论 2赞 365
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,967评论 2赞 351

《Aspect Term Extraction for Sentiment Analysis》阅读笔记

推荐阅读更多精彩内容