信息增益法

信息熵

在文本分类中,假设文本共k类,每类出现的概率是:

其中每个类别的信息熵计算公式:

信息熵代表了不不确定性,不确定性越大,信息熵越大。

假如k=1,该类别的概率为1,则不确定性为0,信息熵也为0。

条件熵

条件熵表示在条件X下Y的信息熵:

X定义为文本中word是否出现,公示如下:

其中:

信息增益

信息增益 = 信息熵 - 条件熵

约定A为出现特征t且类别为Ci的文档数,B为出现特征t且类别不为Ci的文档数,C为不出现特征t且类别为Ci的文档数,D为不出现特征t且类别不为Ci的文档数,N为文档总数。

则针对某个类别Ci,特征t的信息增益为:

总结

信息增益法在文本分类时用于特征提取, 选取对某类别信息增益比较大的词作为该类的特征。

例如在正负向文本分类中,某个特征(词)针对某个类别(正负向)的信息增益比较大,即该词的出现使该文本为某一类别的概率大大增加,则可将该词作为该类别的特征。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 简书的Markdown 语法,不支持公式啊,太郁闷了。公式都显示不出来下载链接:http://download.c...
    thirsd阅读 15,530评论 0 11
  • 一、信息检索基础 信息检索基础之文本特征提取 文本挖掘的任务:从海量文档中发现隐含知识和模式 文本挖掘的特殊性:挖...
    vivian_219阅读 406评论 0 0
  • 注:题中所指的『机器学习』不包括『深度学习』。本篇文章以理论推导为主,不涉及代码实现。 前些日子定下了未来三年左右...
    我偏笑_NSNirvana阅读 40,103评论 12 145
  • 1. 喜鹊急急换上新缝的花袄子,端起小镜子仔细描画柳叶似的眉。镜子里是一个水样的女孩子,丰满的脸颊上染着红酡,一双...
    陈知了阅读 321评论 0 0