花书第三章笔记

@[toc]

第三章概率与信息论

掌握深度学习中所需要的概率论相关知识

概率论[p47-p71]

3.1 为什么要使用概率

机器学习通常必须处理不确定量，有时也可能需要处理随机(非确定性的) 量。概率论了以来量化不确定性。不确定性的三种可能来源：

概率论来量化不确定性
不完全观测。
不完全建模。

信任度（degree of belief）
用概率来表示，其中 $1$ 表示肯定，而 $0$ 表示否定。
频率派概率（frequentist probability）直接与事件发生的频率相关的概率；
贝叶斯概率（Bayesian probability），涉及到确定性水平的概率，比如 $1$ 和 $0$ 。

3.2 随机变量

随机变量（random variable）是可以随机地取不同值的变量。用无格式小写字母表示随机变量，如 $\textrm{x}$ ，用手写体的小写字母表示随机变量取值，如 $x_{1}$ 。

3.3 概率分布

概率分布（probability distribution）：用来描述随机变量或一簇随机变量在每一
个可能取到的状态的可能性大小。

3.3.1 离散型变量和概率质量函数

概率质量函数（probability mass function, PMF）：描述离散型变量的概率分布，用大写字母 $P$ 表示，国内也叫作概率分布律。如 $P(x)$ 表示随机变量 $\textrm{x}$ 的分布，且必须满足一下条件：
- $P$ 的定义域必须是 $\textrm{x}$ 所有可能状态的集合。
- $\forall x \in \textrm{x},0 \leq P(x)\leq 1.$
- 归一化的（normalized）： $\sum _{x \in \mathrm{x}}P(x)=1$
联合概率分布（joint probability distribution）：多个随机变量的概率分布，用 $P(x=\textrm{x},y=\textrm{y})$ 表示，简写为 $P(x,y)$ 。
均匀分布（uniform distribution）：将它的每个状态视为等可能的

$P(\textrm{x}=x_{i})=\frac{1}{k}$

3.3.2 连续型变量和概率密度函数

概率密度函数（probabilitydensity function, PDF）：描述连续型随机变量的概率分布，用小写字母 $p$ 表示。如 $p(x)$ 表示随机变量 $\textrm{x}$ 的分布，且必须满足一下条件：
- $p$ 的定义域必须是 $\textrm{x}$ 所有可能状态的集合。
- $\forall x \in \textrm{x},p(x)\geq 0.$ 注意,并不要求 $p(x)\leq 1$ 。
- $\int p(x)dx=1$
均匀分布（uniform distribution）：将它的每个状态视为等可能的，通常用 $x \sim U(a; b)$ 表示 $x$ 在 $[a; b]$ 上是均匀分布的

3.4 边缘概率

边缘概率分布（marginal probability
distribution）：已知一组变量的联合概率分布，其子集的概率分布。
求和法则（sum rule）：
- 离散型随机变量 $x$ 和 $y$ ，并且已知道 $P(x; y)$ ，求取 $P(x)$
$\forall x \in \textrm{x},P(\textrm{x}=x)=\sum _{y}P(\textrm{x}=x,\textrm{y}=y)$
- 连续型随机变量，求取边缘概率分布：
  $p(x)=\int p(x,y)dy$

3.5 条件概率

条件概率（norm）:某个事件在给定其他事件发生时出现的概率。给定 $\textrm{x}=x$ ， $\textrm{y}=y$ 发生的条件概率记为 $P(\textrm{y} = y \mid \textrm{x} = x)$ 。

$P(\textrm{y} = y \mid \textrm{x} = x)=\frac{P(\textrm{y} = y , \textrm{x} = x)}{P(\textrm{x} = x)}$

干预查询（intervention query）：计算一个行动的后果，属于因果模型（causal modeling）的范畴。

3.6 条件概率的链式法则

链式法则（chain rule）或者乘法法则（product rule）：任何多维随机变量的联合概率分布，都可以分解成只有一个变量的条件概率相乘的形式：

$P(\mathrm{x}^{(1)},\cdots ,\mathrm{x}^{(n)})=P(\mathrm{x}^{(1)})\prod_{i=2}^{n}P (\mathrm{x}^{(i)}\mid \mathrm{x}^{(1)},\cdots ,\mathrm{x}^{(i-1)})$

3.7 独立性和条件独立性

两个随机变量是相互独立的（independent），记为 $\mathrm{x}\perp \mathrm{y}$ .

$\forall x \in \mathrm{x},y \in \mathrm{y},p(\mathrm{x}=x,\mathrm{y}=y)=p(\mathrm{x}=x)p(\mathrm{y}=y)$

两个随机变量是条件独立的（conditionally independent），记为 $\mathrm{x}\perp \mathrm{y} \mid \mathrm{z}$ .

$\forall x \in \mathrm{x},y \in \mathrm{y},p(\mathrm{x}=x,\mathrm{y}=y \mid \mathrm{z}=z)=p(\mathrm{x}=x \mid \mathrm{z}=z)p(\mathrm{y}=y \mid \mathrm{z}=z)$

3.8 期望、方差和协方差

函数 $f(x)$ 关于某分布 $P(x)$ 的期望（expectation）或者期望值（expected value）是指，当 $x$ 由 $P$ 产生， $f$ 作用于 $x$ 时， $f(x)$ 的平均值。
- 离散型随机变量
  $\mathbb{E}_{\mathrm{x}\sim P}[f(x)]=\sum _{x} P(x)f(x)$
- 连续型随机变量
  $\mathbb{E}_{\mathrm{x}\sim p}[f(x)]=\int _{x} p(x)f(x)dx$
方差（variance value）:衡量当对 $x$ 依据它的概率分布进行采样时，随机变量 $x$ 的函数值会呈现多大的差异。方差的平方根被称为标准差（standard deviation）。

$\mathrm{Var}(f(x))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])^{2}]$

协方差（covariance value）:衡量了两个变量线性相关性的强度。协方差为正，说明正相关；协方差为负，说明为负相关，

$\mathrm{Cov}(f(x),g(y))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])(g(y)-\mathbb{E}[g(y)])]$

相关系数（correlation）将每个变量的贡献归一化，为了只衡量变量的相关性而不受各个变量尺度大小的影响。
协方差矩阵（covariance matrix）：

$\mathrm{Cov}(\mathrm{x})_{i,j}=\mathrm{Cov}(\mathrm{x_i,y_j})$

$\mathrm{Cov}(\mathrm{x})_{i,j}=\mathrm{Var}(\mathrm{x_i})$

3.9 常用概率分布

3.9.1 Bernoulli 分布

Bernoulli 分布（Bernoulli distribution），又叫伯努利分布，是单个二值随机变量的分布。

$P(\mathrm{x}=x)=\phi ^{x}(1-\phi)^{1-x}$

$\mathbb {E}_{\mathrm{x}}[\mathrm{x}]=\phi,\mathrm{Var}_{\mathrm{x}}(x)=\phi(1-\phi)$

3.9.2 Multinoulli 分布

Multinoulli 分布（multinoulli distribution），又叫范畴分布（categorical distribution），指在具有 $k$ 个不同状态的单个离散型随机变量上的分布，其中 $k$ 是一个有限值。

3.9.3 高斯分布

高斯分布（Gaussian distribution），实数上最常用的分布，也称为正态分布（normal distribution）：

$\mathcal{N}(x;\mu,\sigma ^2 )=\sqrt{\frac{1}{2\pi\sigma^{2}}}\mathrm{exp}(-\frac{1}{2\sigma^{2}}(x-\mu)^{2})$

标准正态分布（standard normal distribution），其中 $\mu = 0,\sigma = 1$ 。
中心极限定理（central limit theorem）说明很多独立随机变量的和近似服从正态分布。
多维正态分布（multivariate normal distribution）：将正态分布推广到 $\mathbb{R}^{n}$ 的情况：

$\mathcal{N}(\boldsymbol{x};\boldsymbol{\mu},\boldsymbol{\Sigma })=\sqrt{\frac{1}{(2\pi)^{n}\mathrm{det}(\boldsymbol{\Sigma }))}}\mathrm{exp}(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T}\boldsymbol{\Sigma }^{-1}(\boldsymbol{x}-\boldsymbol{\mu}))$

3.9.4 指数分布和Laplace分布

指数分布（exponential distribution）：一种在 $x = 0$ 点处取得边界点(sharp point) 的分布。使用指示函数(indicator function) $\mathbf{1}_{x\geq 0}$ 来使得当 $x$ 取负值时的概率为零。

$p(x;\lambda)=\lambda\mathbf{1}_{x\geq 0}\exp (-\lambda x)$

Laplace 分布（Laplace distribution），它允许我们
在任意一点 $\mu$ 处设置概率质量的峰值

$\mathrm{Laplace}(x;\mu,\gamma)=\frac{1}{2 \gamma} \exp (-\frac{\left | x-\mu \right |}{\gamma})$

3.9.5 Dirac 分布和经验分布

Dirac delta函数（Dirac delta function）:概率分布中的所有质量都集中在一个点上。概率密度函数用 $\delta(x)$ ，也被称为冲激函数。

$p(x)=\delta(x-\mu)$

经验分布（empirical distribution）：将概率密度 $\frac{1}{m}$ 赋给 $m$ 个点 $x^{(1)}, \cdots, x^{(m)}$ 中的每一个，这些点是给定的
数据集或者采样的集合。

$\hat{p}(\boldsymbol{x})=\frac{1}{m}\sum_{i=1}^{m}\delta(\boldsymbol{x}-\boldsymbol{x}^{(i)})$

3.9.6 分布的混合

混合分布（mixture distribution）：通过组合一些简单的概率分布来定义新的概率分布，由一些组件(component)分布构成。

$P(\mathrm{x})=\sum _{i}P(\mathrm{c}=i)P(\mathrm{x} \mid \mathrm{c}=i)$

高斯混合模型（Gaussian Mixture Model），它的组件 $p(\mathrm{x} \mid \mathrm{c} = i)$ 是高斯分布。每个组件都有各自的参数，均值 $\mu^{(i)}$ 和协方差矩阵 $\Sigma ^{(i)}$ 。它是概率密度的万能近似器（universal
approximator），任何平滑的概率密度都可以用具有足够多组件的高斯混合模型以任意精度来逼近。
先验概率（prior probability）：在观测到 $\mathrm{x}$ 之前传递给模型关于 $\mathrm{c}$ 的信念 $\alpha=P(\mathrm{c}=i)$ .
后验概率（posterior probability）：在观测到 $\mathrm{x}$ 之后进行计算的概率 $P(\mathrm{c}\mid \boldsymbol{x})$

3.10 常用函数的有用性质

logistic sigmoid 函数：取值范围 $(0,1)$ ，常被用作深度学习中的激活函数。缺点：在变量取绝对值非常大的正值或负值时会出现饱和（saturate）现象，造成梯度消失。

$\sigma (x)=\frac{1} {1+\exp {(-x)}}$

$\frac{\mathrm{d} }{\mathrm{d} x}\sigma (x)=\sigma (x)(1-\sigma (x))$

softplus 函数：取值范围 $(0,\infty )$ ，它是对 $x^+=\max(0,x)$ 函数的平滑或“软化”。

$\zeta (x)=\log (1+\exp(x))$

3.11 贝叶斯规则

贝叶斯规则（Bayes’ rule）：在已知 $P(\mathrm{y} \mid \mathrm{x})$ 时计算 $P(\mathrm{x} \mid \mathrm{y})$ 。

$P(\mathrm{x}\mid \mathrm{y})=\frac {P(\mathrm{x})P(\mathrm{y}\mid\mathrm{x})} {P(\mathrm{y})}$

3.12 连续型变量的技术细节

零测度（measure zero）：零测度集在我们的度量空间中不占有任何的体积。
几乎处处（almost everywhere）：某个性质如果是几乎处处都成立的，那么它在整个空间中除了一个测度为零的集合以外都是成立的。
Jacobian 矩阵（Jacobian matrix）：

$J_{i,j}=\frac{\partial x_i}{\partial y_j}$

3.13 信息论

满足下面三个性质，我们定义一个事件的自信息（self-information）为：
- 非常可能发生的事件信息量要比较少；
- 较不可能发生的事件具有更高的信息量；
- 独立事件应具有增量的信息。

$I(x)=-\log P(x)$

香农熵（Shannon entropy）来对整个概率分布中的不确定性总量进行量化：

$H(\mathrm{x})=\mathbb{E}_{\mathrm{x}\sim P}[I(x)]=-\mathbb{E}_{\mathrm{x}\sim P}[\log P(x)]$

KL 散度（Kullback-Leibler (KL) divergence）：衡量这两个单独的概率分布 $P(x)$ 和 $Q(x)$ 的差异，具有不对称性 $D_{KL}(P \| Q)\neq D_{KL}(Q \| P)$

$D_{\mathrm{KL}}(P \| Q)=\mathbb{E}_{\mathrm{x} \sim P}[\log \frac{P(x)} {Q(x)}]=\mathbb{E}_{\mathrm{x} \sim P}[\log P(x)-\log Q(x)]$

交叉熵（cross-entropy）：

$H(P,Q)=H(P)+D_{\mathrm{KL}}(P \| Q)=-\mathbb{E}_{\mathrm{x} \sim P}[\log Q(x)$

3.14 结构化概率模型

结构化概率模型（structured probabilistic model）或者图模型（graphical model）：由一些可以通过边互相连接的顶点的集合构成的图来表示概率分布的分解。有两种主要的结构化概率模型：有向的和无向的。两种图模型都使用图 $\mathcal{G}$ ，其中
图的每个节点对应着一个随机变量。
- 有向（directed）模型使用带有有向边的图，它们用条件概率分布来表示分解。
$p(\mathrm{x})=\prod _{i}p(\mathrm{x_i}\mid Pa_{\mathcal{G}}(\mathrm{x_i}))$
- 无向（undirected）模型使用带有无向边的图，它们将分解表示成一组函数；
$p(\mathbf{\mathrm{x}})=\frac{1}{Z}\prod _{i}\phi ^{(i)}(\mathcal{C}^{(i)})$

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,163评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,301评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,089评论 0赞 352
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,093评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,110评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,079评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,005评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,840评论 0赞 273
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,278评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,497评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,667评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,394评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,980评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,628评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,796评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,649评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,548评论 2赞 352