今天上午睡了一上午,下午和小伙伴们去讨论MOOC学术社团的事情了,刚洗完澡都快十一点了,所以今天就只看看摘要和Intro吧。
Large-Scale Sentiment Analysis for News and Blogs
摘要
报纸、博客能够反映新发生事件的观点,因为他们报道最近发生的事情。我们的系统进行正面负面分析。
简介
有好新闻和坏新闻,但它们很少是中性的(和巴黎南大学那个观点正好冲突嘛)。虽然完全理解文字语言的技术现在还无法用机器完成,统计上的简单情感分析却依旧很有意义。
本文以Lydia文字分析系统为基础。
(Lydia文字分析系统的论文http://link.springer.com/chapter/10.1007%2F11575832_18)
本文讨论的侧面如下:
舆情字典的算法结构:我们利用WordNet中的近反义词来把我们的小列表扩充。(WordNet是由Princeton 大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。)
情感指数公式:主要利用情感词汇叠加和世界情感等级插值技术。
重要性评价:主要是用实际生活中的例子来验证。
研究背景
研究技术主要有两方面,生成情感词典,以及整文分析。
情感指向
Hatzivassiloglou and McKeown的研究假设用and连接的形容词为近义词、而but连接的为反义词。(中文里可以用“而且/并且”和“但是”之类的代替)这样可以用一个很小的列表拓展出很大的词库。
Wiebe不仅研究词语的极性,还研究了他们的等级(程度)。主要用统计方法。
Kim and Hovy则使用了WordNet。他们假设同近义词/反义词都有一样/相反的极性,而一个词语的近义词的极性比率则表示了他们的极性程度,而在一定极性一下的词语则为中性和不清楚。
情感分析系统
Pang, Lee and Vaithyanathan的电影情感分析系统的正确率大约83%。
Nasukawa and Yi的论文则更能识别local sentiment(区域性情感)。即分对象地分析情感,如对一个照相机的评价可能是指向其电池、镜头等部件。
我们的系统更快更好地完成了上述任务。
That's all for today. See you tomorrow.
Kevin Ham@Wuhu
Department of Internet Engineering, Anhui Normal University, Wuhu, China
3.8.2015