統計學的熵(entropy)
其他文章連結:
Cross entropy1
Cross entropy2
Cross entropy3
Cross entropy4
Cross entropy5
信息量
越不可能發生的事件信息量越大,例如“地球在2016年會爆炸”這句話信息量就很大。而確定事件的信息量就很小,例如“我媽是女的”,信息量就很低甚至為0。
- 信息量計算
例如有一枚作弊的銅板,擲中正面的機率是90%我們稱為事件A,擲中背面的機率是10%我們稱為事件B。
發生事件A的信息量為,發生機率低,信息量很大。
發生事件B的信息量為,發生機率高,信息量很小。
熵(entropy)
熵(entropy)代表信息量的期望值,代表不確定度,熵在熱力學中也代表亂度。
1.離散型隨機變量
建議看一下期望值、二項分佈對理解entropy以及Logistic Regression會有幫助。
對數所使用的底,通常是2,自然常數e,或是10。當b = 2,熵的單位是bit;當b = e,熵的單位是nat;而當b = 10,熵的單位是Hart。
- 離散型隨機變量的期望值
- 熵計算
- 例如有一枚作弊的銅板,擲中正面的機率是90%我們稱為事件A,擲中背面的機率是10%我們稱為事件B。
發生事件A的信息量為,發生機率低,信息量很大。
發生事件B的信息量為,發生機率高,信息量很小。
擲這枚銅板的熵:
不確定度越低熵越小,我們可以很確定會擲中正面。 - 例如有一枚正常的銅板,擲中正面的機率是50%我們稱為事件A,擲中背面的機率是50%我們稱為事件B。
發生事件A的信息量為
發生事件B的信息量為
擲這枚銅板的熵:
不確定度越高熵越大,我們很難確定會擲中正面或反面。
2.連續型隨機變量
連續型隨機變量求熵則求積分。
交叉熵
KL散度(相對熵)
KL散度是用來衡量兩個事件/分佈之間的不同,記為。
定義:
。
交叉熵與相對熵