1. 全概率公式、贝叶斯公式
举例:
2. 先验概率、后验概率
3. 概率密度函数、分布函数
KL散度
KL散度用来做什么?
KL散度的用途
:比较两个概率分布的接近程度。
在统计应用中,我们经常需要用一个简单的,近似的概率分布 f^ 来描述观察数据 D或者另一个复杂的概率分布 f。此时,我们需要一个量来衡量我们选择的近似分布 f^相比原分布f究竟损失了多少信息量,这就是KL散度起作用的地方。
熵可以被理解为:我们编码所有信息所需要的最小位数
KL散度计算
:数据的原分布与近似分布的概率的对数差的期望值
信息熵是什么?
https://www.zhihu.com/question/22178202/answer/667876061
香农最初并没有借用“熵”这个词汇来表达他关于信息传输中的“不确定性”的度量化。他甚至都不太知晓他所考虑的量与古典热力学熵之间的类似性。他想把它称为“information(信息)”,但又认为这个名词太过大众化,已被普通老百姓的日常话语用滥了。他又考虑过就用单词“uncertainty(不确定性)”,但它却更像抽象名词,缺乏量化的余地,确实难于定夺。终于有一天,他遇见了天才的数学家冯 • 诺依曼(John von Neumann, 1903-1957)。真是找对了人!冯·诺依曼马上告诉他:
就叫它熵吧,这有两个好理由。一是你的不确定性函数已在统计物理中用到过,在那里它就叫熵。第二个理由更重要:没人真正理解熵为何物,这就让你在任何时候都可能进能退,立于不败之地。
香农的信息熵本质上是对我们司空见惯的“不确定现象”的数学化度量。譬如说,如果天气预报说“今天中午下雨的可能性是百分之九十”,我们就会不约而同想到出门带伞;如果预报说“有百分之五十的可能性下雨”,我们就会犹豫是否带伞,因为雨伞无用时确是累赘之物。显然,第一则天气预报中,下雨这件事的不确定性程度较小,而第二则关于下雨的不确定度就大多了。