3.9 常用概率分布
3.9.1 Bernoulli 分布
Bernoulli分布 (Bernoulli distribution)是单个二值型随机变量的分布。相关性质:
P (x = 1) = φ
P (x = 0) = 1 − φ
二项分布(Binomial distribution)将伯努利试验独立地重复n次称为n重伯努利试验
P(x = x) = φ^x · (1 − φ)^1−x
E[x] = φ
Var(x) = φ(1 − φ)
3.9.2 Multinoulli 分布
Multinoulli 分布 (multinoulli distribution) 或者分类分布 (categorical distribution) 是指在具有 k 个不同状态的单个离散型随机变量上的分布,k 是有限的。比如扔骰子
3.9.3 高斯分布
正态分布 (normal distribution),也称为高斯分布 (Gaussian distribution)
中心极限定理(central limit theorem):大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。
3.9.4 指数分布和 Laplace 分布
指数分布 (exponential distribution):
3.9.5 Dirac 分布和经验分布
在一些情况下,我们想要所有的概率都集中在一个点上。这可以通过Dirac delta 函数 (Dirac delta function)δ(x) 定义概率密度函数来实现:p(x) = δ(x − μ)
Dirac delta 函数被定义成除了 0 以外的其他点的值都为 0,但是积分为 1。
Dirac 分布经常作为经验分布 (empirical distribution)的一个组成部分出现:
经验分布将概率密度1/m 赋给 m 个点 x(1) , . . . , x(m) 中的每一个,这些点是给定的数据集或者采样的集合。Dirac delta 函数只对定义连续型随机变量的经验分布是必要的。对于离散型随机变量,情况更加简单:经验分布可以被定义成一个Multinoulli 分布,对于每一个可能的输入,其概率可以简单地设为在训练集上那个输入值的经验频率 (empirical frequency)。
3.9.6 分布的混合
高斯混合模型 (Gaussian Mixture Model)(https://zhuanlan.zhihu.com/p/31103654)
3.10 常用函数的一些性质
logistic sigmoid函数:
softplus 函数 (softplus function)
3.11 贝叶斯规则
贝叶斯规则 (Bayes’ rule)
3.12 连续型变量的技术细节
**
3.13 信息论
(《数学之美》关于信息论的说法很生动)
自信息 (self-information):
I(x) = − logP(x)(大多数材料是以2为底,但在《deep learning》以自然对数为底)
香农熵 (Shannon entropy)来对整个概率分布中的不确定性总量进行量化
条件熵:在已知第二个随机变量X的值的前提下,随机变量 Y的信息熵还有多少。基于X条件的Y的信息熵,用H(Y|X)表示。
3.14 结构化概率模型
用图来表示概率分布的因子分解,我们把它称为结构化概率模型 (structured probabilistic model)或者图模型 (graphical model)。
有两种主要的结构化概率模型:有向的和无向的。
有向 (directed) 模型,也称贝叶斯网络,使用带有有向边的图,它们用条件概率分布来表示因子分解。
无向 (undirected) 模型,也称马尔可夫随机场,使用带有无向边的图。
无向图中的一个全连通子图,称为团(Clique),即团内的所有节点之间都连边。无向模型中的每个团 C(i) 都伴随着一个因子 φ(i)(C(i))。 这些因子仅仅是函数,并不是概率分布。每个因子的输出都必须是非负的,但是并没有像概率分布中那样要求因子的和或者积分为 1。用常数 Z 来得到归一化的概率分布。
用书中的两个例子来说明下:
图中有三个团(a,b,c),(b,d),(c,e),因此得到此图对应的概率分布可以分解为: