情感倾向PMI算法

点互信息算法(PMI)

基本思想:是统计两个词语在文本中同时出现的概率,如果概率越大,其相关性就越紧密,关联度越高。

PMI > 0;两个词语是相关的;值越大,相关性越强。

PMI = 0;两个词语是统计独立的,不相关也不互斥。

PMI < 0;两个词语是不相关的,互斥的。

从概率思想理解:

如果两个事件不相关也不互斥,则同时发生的概率p(a,b)=p(a)*p(b),此时p(a,b)/p(a)*p(b)=1,PMI(a,b)=0;

如果两个事件相关,则同时发生的概率p(a,b)>p(a)*p(b),此时p(a,b)/p(a)*p(b)>1,PMI(a,b)>0;

如果两个事件互斥,则同时发生的概率p(a,b)

情感倾向点互信息算法(SO-PMI)

基本思想是:选用一组褒义词(Pwords)跟一组贬义词(Nwords)作为基准词。若把一个词语word1跟Pwords的点间互信息减去word1跟Nwords的点间互信息会得到一个差值,就可以根据该差值判断词语word1的情感倾向。


SO-PMI(word1)> 0;为正面倾向,即褒义词

SO-PMI(word1) = 0;为中性倾向,即中性词

SO-PMI(word1) < 0;为负面倾向,即贬义词

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 命名实体识别 命名实体的提出源自信息抽取问题,即从报章等非结构化文本中抽取关于公司活动和国防相关活动的结构化信息,...
    我偏笑_NSNirvana阅读 13,593评论 1 35
  • 1. 关于诊断X线机准直器的作用,错误的是()。 (6.0 分) A. 显示照射野 B. 显示中心线 C. 屏蔽多...
    我们村我最帅阅读 13,719评论 0 5
  • 文/柳夕 村落乌啼漫,燕归草木深。 童在山头唱,夜困残落根。
    邵风阅读 2,669评论 6 13
  • 擦拭不经意间的泪 翻来覆去 心口压抑着 烟雨般朦胧的人和事 似乎有些记不起 那是美好抑或是遗憾 说话的语气还那么鲜...
    绯絮阅读 975评论 0 0
  • 这个夏天的前半段一直很干燥,老家的河流露出了河床,长满了又高又密的我叫不出名儿的青草,这不禁让我怀疑它们本...
    hello予沐先生阅读 3,493评论 6 11