特征选择之信息增益

在文本分类中利用信息增益进行特征提取

信息增益体现了特征的重要性,信息增益越大说明特征越重要

假设数据中有k类:

每类出现的概率是:


各类的信息熵计算公式:



对某个词汇word需要计算word在所有类别中出现的概率:


就是:出现word的文件数 除以总文件数

word不出现的概率:


就是没有出现word的文件数 除以总文件数

条件熵的计算:


这里我们用到了T表示word这个特征

其中


表示:出现word的文件的信息熵

计算方式:


其中:

表示出现word的情况下是Ci类的概率,计算方式:Ci类中出现word的文件数 除以 总的出现word的文件数


表示不出现word的条件熵

计算方式


其中

表示没有出现word的情况下是Ci类的概率,计算方式:Ci类中没有出现word的次数 除以 总类中没有出现word的次数

总的信息增益计算公式


信息熵体现了信息的不确定程度,熵越大表示特征越不稳定,对于此次的分类,越大表示类别之间的数据差别越大

条件熵体现了根据该特征分类后的不确定程度,越小说明分类后越稳定

信息增益=信息熵-条件熵,越大说明熵的变化越大,熵的变化越大越有利于分类

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容