http://www.cnblogs.com/zhangchaoyang/articles/2655785.html
其实 根据公式的定义
熵就是信息的期望!所以熵也叫【信息熵】
信息增益IG = H(x)-H(x|y),信息增益越大,说明条件y对熵降低贡献的越大,说明条件y提供的信息越多!
详细解释交叉熵!为什么sigmoid单元激活后面要用交叉熵而不用MSE。
http://blog.csdn.net/u012162613/article/details/44239919
KL距离也是一种熵,叫相对熵。交叉熵是特殊的相对熵。
http://blog.csdn.net/pirage/article/details/8902832