信息增益

首先明确一点，信息熵是信息量的期望！期望！期望！（各种信息熵都是如此，像熵、条件熵、信息增益）
熵：表示随机变量的不确定性。当熵中的概率由数据估计(特别是最大似然估计)得到时，所对应的熵称为经验熵(empirical entropy)。

条件熵：在一个条件下，随机变量的不确定性。当条件熵中的概率由数据估计(特别是极大似然估计)得到时，所对应的条件熵称为条件经验熵。

设特征A有n个不同的取值{a1,a2,···,an}，根据特征A的取值将D划分为n个子集{D1,D2，···,Dn}，|Di|为Di的样本个数。记子集Di中属于Ck的样本的集合为Dik，即Dik = Di ∩ Ck，|Dik|为Dik的样本个数。于是经验条件熵的公式可以写为：

信息增益（也叫互信息）：熵 - 条件熵在一个条件下，信息不确定性减少的程度！通俗地讲，X(明天下雨)是一个随机变量，X的熵可以算出来， Y(明天阴天)也是随机变量，在阴天情况下下雨的信息熵我们如果也知道的话（此处需要知道其联合概率分布或是通过数据估计）即是条件熵。两者相减就是信息增益！原来明天下雨例如信息熵是2，条件熵是0.01（因为如果是阴天就下雨的概率很大，信息就少了），这样相减后为1.99，在获得阴天这个信息后，下雨信息不确定性减少了1.99！是很多的！所以信息增益大！也就是说，阴天这个信息对下雨来说是很重要的！所以在特征选择的时候常常用信息增益，如果IG（信息增益大）的话那么这个特征对于分类来说很关键~~ 决策树就是这样来找特征的！

作者：远古冰魄
链接：https://www.zhihu.com/question/22104055/answer/67014456
来源：知乎

熵、条件熵、信息增益（互信息）

熵、条件熵、信息增益（互信息）

信息增益

推荐阅读更多精彩内容