一些信息熵知识的总结2021-03-17

1.熵的定义

我们把熵代表一个系统中的不确定性,其基本公式如下:
S(x)=-\sum_{i=0}^{C-1}P(x_i)log(P(x_i))=\sum_iP(x_i)log(\frac 1{P(x_i)})\\ 1).通俗来说,如果x代表性别,如果x_0代表某个事件比方说我是男生,x_1代表我是女生,并且概率都是1/2那么整个系统中,\\ 代表性别的随机变量x的熵(代表了不确定性)是\frac 1 2log2+\frac 1 2log2=1即log2,那么我的性别的不确定性为log2\\ 2).如果x变量代表我是我是谁生的,x_0代表我是我是我妈妈生的,x-1代表我是我爸爸生的,可以看出来P(x_0)=1,P(x_1)=0,\\ 那么根据公司可以算得整个系统的熵为0,表示这个系统不确定性为0,即我就是我妈生的这样一种可能。
如果x是一个连续的取值,那么还有另外一种表示形式如下:
S(x)=\int_xP(x)log(\frac 1 {P(x)})dx,同样表示整个系统的不确定性。

总结:
  • 可以看得出来熵是一个正数即>=0,这也正好可以表示不确定性或者说是发散的程度,确定的事件不发散所以其熵为0.

2. KL散度,相对熵的定义,其表示两个分布X和Y不同的程度

其基本公式可以表示为如下:
KL(A||B)=\sum_{i=0}^{C-1}P_A(x_i)log(P_A(x_i))-P_A(x_i)log(P_B(x_i))= \sum_{i=0}^{C-1}P_A(x_i)log(\cfrac {P_A(x_i)}{P_B(x_i)})\\ 可以看出在分布一致的时候,其最后的散度为0,否则其他都是负数\\ 连续情况下KL(A||B)=\int_xP_A(x)log(\frac {P_A(x)}{P_B(x)})dx
总结:

  • KL散度不能确定正负数,毕竟两者之间的差异可以是正的也可以是负的。
  • 由上面的公式可以看的出来,X||Y的相对熵计算依赖于P(x^i)所以和Y||X是不对称的

3. 交叉熵:

对于交叉熵,可以用如下的公式进行计算
H(y,z)=\sum_{i=0}^{C-1}P_A(x_i)log(\frac 1 {P_B(x_i)})\\ H(y,z)=\int_x P_A(x)log(\frac {1}{P_B(x)})\\ 特别的如果对于二分类的问题x_i只会有x_0和x_1,那么可以计算其交叉熵为:Preal(x_0)log(\frac 1 {Predict(x_0)})+Preal(x_1)log(\frac 1 {Predict(x_1)})\\ =ylog(\frac 1 {Predit(y)})+(1-y)log(\frac 1 {Predict(1-y)})=-[ylog(Predict(y))+(1-y)log(Predict(1-y)]

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容