一、概率论
1.1 期望和方差
期望值是指随机变量所取值的概率平均。
方差是描述该随机变量的值偏离其期望值的程度。
1.2 边缘概率密度
如果二维随机变量的分布函数F{x,y}为已知,那么随机变量x,y的分布函数F𝗑{x}和Fʏ{y}可由F{x,y}求得。则F𝗑{x}和Fʏ{y}为分布函数F{x,y}的边缘分布函数。
边缘密度函数:[图片上传失败...(image-b7d715-1531878274465)]
二、信息论
2.1 信息量
信息量就是不确定度,越是不能判断未来有多少可能,信息度就越大。
2.2 熵
为了让信息可以量化,提出了信息熵的概念。熵就是信息量的集合。
例如我们讨论太阳从哪升起。本来就只有一个结果,我们早就知道,那么无论谁传递任何信息都是没有信息量的。当可能结果数量比较大时,我们得到的新信息才有潜力拥有大信息量。
香农是信息论的创始人,
热力学中,熵指分子运动的混乱度:越混乱,熵越大。
信息论中,熵指一个随机变量的不确定性的数量。(随机变量的值是确定的时候,熵为0)
香农总结出了信息熵的三条性质:
单调性,即发生概率越高的事件,其所携带的信息熵越低。极端案例就是“太阳从东方升起”,因为为确定事件,所以不携带任何信息量。从信息论的角度,认为这句话没有消除任何不确定性。
非负性,即信息熵不能为负。这个很好理解,因为负的信息,即你得知了某个信息后,却增加了不确定性是不合逻辑的。
累加性,即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和。
事件 [图片上传失败...(image-d52a4c-1531878274465)]
同时发生,两个事件相互独立 [图片上传失败...(image-db5158-1531878274465)] ,
那么信息熵 [图片上传失败...(image-2668db-1531878274465)]
如果两个事件不相互独立,那么满足
[图片上传失败...(image-9c14a2-1531878274465)]
,其中 [图片上传失败...(image-3465ad-1531878274465)]
是互信息(mutual information),代表一个随机变量包含另一个随机变量信息量的度量。下面介绍互信息
2.3 互信息
比如一个点到点通信系统中,发送端信号为 [图片上传失败...(image-d70f4c-1531878274465)]
,通过信道后,接收端接收到的信号为 [图片上传失败...(image-332b77-1531878274465)]
,那么信息通过信道传递的信息量就是互信息 [图片上传失败...(image-be7c04-1531878274465)]
。根据这个概念,香农推出了一个十分伟大的公式,香农公式,给出了临界通信传输速率的值,即信道容量:
[图片上传失败...(image-7e4c40-1531878274465)]
2.4 交叉熵
用来衡量估计模型与真实概率分布之间差异情况。模型的交叉熵越小,模型的表现越好。
[图片上传失败...(image-4c4d80-1531878274465)]
2.5 相对熵(KL距离)
对两个事件的不相似性对量,相对熵越大,两个事件的差异越大。
[图片上传失败...(image-11693e-1531878274465)]
2.6 联合熵
描述一对随机变量平均需要的信息量
[图片上传失败...(image-668298-1531878274464)]
2.7 条件熵
X确定时,Y的不确定性度量
在X发生是前提下,Y发生新带来的熵。