熵(entropy)

統計學的熵(entropy)

其他文章連結:
Cross entropy1
Cross entropy2
Cross entropy3
Cross entropy4
Cross entropy5

信息量

越不可能發生的事件信息量越大,例如“地球在2016年會爆炸”這句話信息量就很大。而確定事件的信息量就很小,例如“我媽是女的”,信息量就很低甚至為0。

  • 信息量計算
    例如有一枚作弊的銅板,擲中正面的機率是90%我們稱為事件A,擲中背面的機率是10%我們稱為事件B。
    發生事件A的信息量為-log(0.1)=1.0000,發生機率低,信息量很大。
    發生事件B的信息量為-log(0.9)=0.0457,發生機率高,信息量很小。

熵(entropy)

熵(entropy)代表信息量的期望值,代表不確定度,熵在熱力學中也代表亂度。

1.離散型隨機變量

建議看一下期望值二項分佈對理解entropy以及Logistic Regression會有幫助。
對數所使用的底,通常是2,自然常數e,或是10。當b = 2,熵的單位是bit;當b = e,熵的單位是nat;而當b = 10,熵的單位是Hart。

  • 離散型隨機變量的期望值
  • 熵計算
  1. 例如有一枚作弊的銅板,擲中正面的機率是90%我們稱為事件A,擲中背面的機率是10%我們稱為事件B。
    發生事件A的信息量為-log(0.1)=1.0000,發生機率低,信息量很大。
    發生事件B的信息量為-log(0.9)=0.0457,發生機率高,信息量很小。
    擲這枚銅板的熵:H(X)=0.1*1+0.9*0.0457=0.1412
    不確定度越低熵越小,我們可以很確定會擲中正面。
  2. 例如有一枚正常的銅板,擲中正面的機率是50%我們稱為事件A,擲中背面的機率是50%我們稱為事件B。
    發生事件A的信息量為-log(0.5)=0.3010
    發生事件B的信息量為-log(0.5)=0.3010
    擲這枚銅板的熵:H(X)=0.5*0.3010+0.5*0.3010=0.3010
    不確定度越高熵越大,我們很難確定會擲中正面或反面。

2.連續型隨機變量

連續型隨機變量求熵則求積分。

交叉熵

H(p||q) = \sum_{x∈X}^{ }p\left(x\right) \cdot \log\left(\frac{1}{q\left(x\right)}\right)
= -\sum_{x∈X}^{ }p\left(x\right) \cdot \log \left({q \left(x \right)}\right)

KL散度(相對熵)

KL散度是用來衡量兩個事件/分佈之間的不同,記為D_{KL}(p||q)
定義:0\log\left(\frac{0}{0}\right)=0,0\log\left(\frac{0}{q}\right)=0,p\log\left(\frac{p}{0}\right)=∞
D_{KL}(p||q)=\sum_{x∈X}^{ }p\left(x\right) \cdot \log\left(\frac{p\left(x\right)}{q\left(x\right)}\right)
=\sum_{x∈X}^{ }p(x)\cdot\log\left(p\left(x\right)\right)-q\left(x\right)\cdot\log\left(p\left(x\right)\right)
= -H(p)-q \left(x\right)\cdot\log\left(p\left(x\right)\right)
p = q時,即兩個事件分佈完全相同,那麼KL散度等於0

交叉熵與相對熵

交叉熵+\sum_{x∈X}p(x) \cdot log(p(x))=相對熵=交叉熵+(-熵)
\sum_{x∈X}^{ }p\left(x\right) \cdot \log\left(\frac{1}{q\left(x\right)}\right)+p(x) \cdot log(p(x))=\sum_{x∈X}^{ }p\left(x\right) \cdot \log\left(\frac{p\left(x\right)}{q\left(x\right)}\right)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容