又称自信息,描述一个随机变量的不确定性的数量。
H(X)=-\sum_{x \in R}p(x)\log_{2}p(x)

联合熵

一对随机变量平均所需要的信息量。
H(X,Y)=-\sum_{x \in X}\sum_{y \in Y}p(x,y)\log p(x,y)

条件熵

给定随机变量X的条件下,随机变量Y的条件熵。
H(Y|X)=-\sum_{x \in X}\sum_{y \in Y}p(x,y)\log p(y|x)
H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)

互信息

知道了Y的值以后X的不确定性的减少量。
I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)

相对熵

又称KL距离,衡量相同事件空间里两个概率分布相对差距的测度。
D(p||q)=\sum_{x \in X}p(x)\log \frac{p(x)}{q(x)}

交叉熵

衡量估计模型与真实概率分布之间差异情况。
H(X,q)=H(X)+D(p||q)=E_{p}(\log \frac{1}{q(x)})

困惑度

代替交叉熵衡量语言模型的好坏。
PP_{q}=2^{H(L,q)}\approx [q(l_{1}^{n})]^{-\frac {1}{n}}

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容