指数族分布|机器学习推导系列（九）

一、介绍

一般形式

指数族分布有：高斯分布、伯努利分布、二项分布、泊松分布、beta分布、Dirichlet分布、gamma分布等。

指数族分布的一般形式：

$P(x|\eta )=h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}$

其中：
① $\eta$ ：参数向量；
② $\phi (x)$ ：充分统计量，Sufficient statistic；
③ $A(\eta )$ ：log partition function（log配分函数）
④ $h(x)$ ：不很重要，通常取1。

配分函数

$P(x|\theta )=\frac{1}{z}\hat{P}(x|\theta )$

通常如果我们得到一个可以表达分布的函数 $\hat{P}(x|\theta )$ 但是其积分不为1，需要除以一个归一化因子 $z$ 来将其归一，这个归一化因子 $z$ 就是配分函数， $z$ 取值为 $\hat{P}(x|\theta )$ 的积分：

$\int P(x|\theta )\mathrm{d}x=\int \frac{1}{z}\hat{P}(x|\theta )\mathrm{d}x\\ \Rightarrow 1=\frac{1}{z}\int \hat{P}(x|\theta )\mathrm{d}x\\ \Rightarrow z=\int \hat{P}(x|\theta )\mathrm{d}x$

解释一下为什么 $A(\eta )$ 叫log配分函数：

$P(x|\eta )=P(x|\eta )=h(x)exp\left \{\eta ^{T}\phi (x)\right \}exp\left \{-A(\eta )\right \}\\ =\frac{1}{exp\left \{A(\eta )\right \}}\underset{\hat{P}(x|\theta )}{\underbrace{h(x)exp\left \{\eta ^{T}\phi (x)\right \}}}$

因此 $exp\left \{A(\eta )\right \}$ 就是配分函数， $A(\eta )$ 就是log配分函数。

指数族分布的特点、模型和应用

$\left.\begin{matrix} 充分统计量\\ 共轭\\ 最大熵 \end{matrix}\right\}指数族分布\left\{\begin{matrix} 广义线性模型\\ 概率图模型\\ 变分推断 \end{matrix}\right.$

充分统计量

$\phi (x)$ 是充分统计量。

什么是充分统计量？举例来说，对于从一些从高斯分布中抽取出来的样本 $x_{1},x_{2},\cdots ,x_{N}$ ，以下统计量就是充分统计量：

$\phi (x)=\begin{pmatrix} \sum_{i=1}^{N}x_{i}\\ \sum_{i=1}^{N}x_{i}^{2} \end{pmatrix}$

因为通过上述统计量可以计算样本的均值和方差进而得到其明确的分布。

有了充分统计量就可以将样本丢掉，从而节省了空间，对online learning有重要意义。

共轭

$P(z|x)=\frac{P(x|z)P(z)} {\int _{z}P(x|z)P(z)\mathrm{d}z}$

在上面的贝叶斯公式中由于分母 $\int _{z}P(x|z)P(z)\mathrm{d}z$ 积分难或者 $P(z|x)$ 的形式太复杂，因此直接求 $P(z|x)$ 是很困难的，因此求 $E_{P(z|x)}[f(z)]$ 也是很困难的，所以人们想了很多办法比如近似推断（变分推断、MCMC等），这些方法的提出都是因为上述积分难的问题。

共轭的概念是指在给定一个特殊的似然（ $P(x|z)$ ）的情况下，后验（ $P(z|x)$ ）与先验（ $P(z)$ ）会有一个形式相同的分布，这也就解决了上述积分困难的问题，避免了求分母上的积分项常数。

举个例子：

$\underset{Beta}{\underbrace{P(z|x)}}\propto \underset{二项式分布}{\underbrace{P(x|z)}}\underset{Beta}{\underbrace{P(z)}}$

最大熵

给出先验 $P(z)$ 的一些方法包括：
①共轭 $\rightarrow$ 计算上的方便；
②最大熵 $\rightarrow$ 无信息先验；
③Jerrif。

最大熵原理给出了一种定义先验的方式，可以使得参数更加地随机。

广义线性模型

广义线性模型中出现的一些概念：

$\left\{\begin{matrix} 线性组合w^{T}x\\ link\; function\rightarrow (激活函数)^{-1}\\ 指数族分布：y|x\sim 指数族分布\left\{\begin{matrix} 线性回归：y|x\sim N(\mu ,\Sigma )\\ 分类：y|x\sim Bernoulli\\ 泊松回归：y|x\sim Possion \end{matrix}\right. \end{matrix}\right.$

概率图模型

无向图中的RBM（限制玻尔兹曼机）应用到了指数族分布。

二、高斯分布的指数族分布形式

以一维高斯分布为例，将高斯分布整理成指数族分布的形式：

$P(x|\theta )=\frac{1}{\sqrt{2\pi }\sigma }exp\left \{-\frac{(x-\mu )^{2}}{2\sigma ^{2}}\right \}\; \; \theta =(u,\sigma ^{2})\\ =\frac{1}{\sqrt{2\pi \sigma ^{2}}}exp\left \{-\frac{1}{2\sigma ^{2}}(x^{2}-2\mu x+\mu ^{2})\right \}\\ =exp\left \{log(2\pi \sigma ^{2})^{-\frac{1}{2}}\right \}exp\left \{-\frac{1}{2\sigma ^{2}}(x^{2}-2\mu x)-\frac{\mu ^{2}}{2\sigma ^{2}}\right \}\\ =exp\left \{log(2\pi \sigma ^{2})^{-\frac{1}{2}}\right \}exp\left \{-\frac{1}{2\sigma ^{2}}\begin{pmatrix} -2\mu & 1 \end{pmatrix}\begin{pmatrix} x\\ x^{2} \end{pmatrix}-\frac{\mu ^{2}}{2\sigma ^{2}}\right \}\\ =exp\left \{\underset{\eta ^{T}}{\underbrace{\begin{pmatrix} \frac{\mu }{\sigma ^{2}} & -\frac{1}{2\sigma ^{2}} \end{pmatrix}}}\underset{\phi (x)}{\underbrace{\begin{pmatrix} x\\ x^{2} \end{pmatrix}}}-\underset{A(\eta )}{\underbrace{(\frac{\mu ^{2}}{2\sigma ^{2}}+\frac{1}{2}log2\pi \sigma ^{2})}}\right \}$

然后即可获得 $\eta$ 和 $\theta$ 的关系：

$\eta =\begin{pmatrix} \eta _{1}\\ \eta _{2} \end{pmatrix}=\begin{pmatrix} \frac{\mu }{\sigma ^{2}}\\ -\frac{1}{2\sigma ^{2}} \end{pmatrix}\\ \left\{\begin{matrix} \eta _{1}=\frac{\mu }{\sigma ^{2}}\\ \eta _{2}=-\frac{1}{2\sigma ^{2}} \end{matrix}\right.\Rightarrow \left\{\begin{matrix} \mu =-\frac{\eta _{1}}{2\eta _{2}}\\ \sigma ^{2}=-\frac{1}{2\eta _{2}} \end{matrix}\right.$

将 $\eta$ 代入 $A(\eta )$ 可以得到如下结果：

$A(\eta )=-\frac{\eta _{1}^{2}}{4\eta _{2}}+\frac{1}{2}log(2\pi \cdot -\frac{1}{2\eta _{2}})\\ =\frac{\eta _{1}^{2}}{4\eta _{2}}+\frac{1}{2}log(-\frac{\pi }{2\eta _{2}})$

由此就将高斯分布整理成了指数族分布的形式：

$P(x|\theta )=h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \} \\ h(x)=1\; \eta =\begin{pmatrix} \eta _{1}\\ \eta _{2} \end{pmatrix}=\begin{pmatrix} \frac{\mu }{\sigma ^{2}}\\ -\frac{1}{2\sigma ^{2}} \end{pmatrix}\; \phi (x)=\begin{pmatrix} x\\ x^{2} \end{pmatrix}\; A(\eta )=\frac{\eta _{1}^{2}}{4\eta _{2}}+\frac{1}{2}log(-\frac{\pi }{2\eta _{2}})$

三、对数配分函数与充分统计量

通过对指数族分布的通用形式进行整理，可以得出对数配分函数与充分统计量
的特定关系：

$P(x|\eta )=h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}\\ =\frac{1}{exp\left \{A(\eta )\right \}}h(x)exp\left \{\eta ^{T}\phi (x)\right \}\\ 由前面介绍的内容可知配分函数exp\left \{A(\eta )\right \}=\int h(x)exp\left \{\eta ^{T}\phi (x)\right \}\mathrm{d}x\\ \Rightarrow \frac{\partial exp\left \{A(\eta )\right \}}{\partial \eta }=\frac{\partial (\int h(x)exp\left \{\eta ^{T}\phi (x)\right \}\mathrm{d}x)}{\partial \eta }\\ \Rightarrow exp\left \{A(\eta )\right \}A^{'}(\eta )=\int h(x)exp\left \{\eta ^{T}\phi (x)\right \}\phi (x)\mathrm{d}x\\ \Rightarrow A^{'}(\eta )=\frac{\int h(x)exp\left \{\eta ^{T}\phi (x)\right \}\phi (x)\mathrm{d}x}{exp\left \{A(\eta )\right \}}\\ =\int \underset{P(x|\eta )}{\underbrace{h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}}}\phi (x)\mathrm{d}x\\ =\int P(x|\eta )\phi (x)\mathrm{d}x\\ =E_{P(x|\eta )}[\phi (x)]$

类似地，继续对 $A(\eta )$ 求二阶导数:

$A^{''}(\eta )=\frac{\partial (\int h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}\phi (x)\mathrm{d}x)}{\partial \eta }\\ =\int \underset{P(x|\eta )}{\underbrace{h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}}}(\phi (x)-A^{'}(\eta ))\phi (x)\mathrm{d}x\\ =\int P(x|\eta )(\phi (x)-E_{P(x|\eta )}[\phi (x)])\phi (x)\mathrm{d}x\\ =\int P(x|\eta )\phi ^{2}(x)-E_{P(x|\eta )}[\phi (x)]P(x|\eta )\phi (x)\mathrm{d}x\\ =\int P(x|\eta )\phi ^{2}(x)\mathrm{d}x-E_{P(x|\eta )}[\phi (x)]\int P(x|\eta )\phi (x)\mathrm{d}x\\ =E_{P(x|\eta )}[\phi ^{2}(x)]-E_{P(x|\eta )}^{2}[\phi (x)]\\ =Var_{P(x|\eta )}[\phi (x)]\\ 由于方差\geq 0，则A^{''}(\eta )\geq 0，因此A(\eta )是凸函数。$

四、极大似然估计与充分统计量

上述推导都是在无样本条件下进行的，在有样本的情况下我们也可以通过极大似然估计法来获得一些特定的关系，假设有如下数据：

$D=\left \{x_{1},x_{2},\cdots ,x_{N}\right \}$

然后使用极大似然估计法求解 $\eta$ ：

$\eta _{MLE}=\underset{\eta }{argmax}\; logP(D|\eta )\\ =\underset{\eta }{argmax}\; log\prod_{i=1}^{N}P(x_{i}|\eta )\\ =\underset{\eta }{argmax}\sum_{i=1}^{N}logP(x_{i}|\eta )\\ =\underset{\eta }{argmax}\sum_{i=1}^{N}log[h(x_{i})exp\left \{\eta ^{T}\phi (x_{i})-A(\eta )\right \}]\\ =\underset{\eta }{argmax}\sum_{i=1}^{N}[\underset{与\eta 无关}{\underbrace{log\; h(x_{i})}}+\eta ^{T}\phi (x_{i})-A(\eta )]\\ =\underset{\eta }{argmax}\sum_{i=1}^{N}[\eta ^{T}\phi (x_{i})-A(\eta )]\\ \frac{\partial \sum_{i=1}^{N}[\eta ^{T}\phi (x_{i})-A(\eta )]}{\partial \eta }\\ =\sum_{i=1}^{N}\frac{\partial [\eta ^{T}\phi (x_{i})-A(\eta )]}{\partial \eta }\\ =\sum_{i=1}^{N}[\phi (x_{i})-A^{'}(\eta )]\\ =\sum_{i=1}^{N}\phi (x_{i})-NA^{'}(\eta )\\ =0\\ \Rightarrow A^{'}(\eta _{MLE})=\frac{1}{N}\sum_{i=1}^{N}\phi (x_{i})$

$\eta _{MLE}$ 就可以通过求 $A^{'}(\eta )$ 的反函数求出来。这说明 $\phi (x_{i})$ 是充分统计量，因为只需要记录 $\frac{1} {N}\sum_{i=1}^{N}\phi (x_{i})$ 这一个值就可以求出 $\eta$ ，进而通过 $\eta$ 求出所有的参数。

五、最大熵

概述

首先定义信息量和熵：

$信息量：-log\; p(x)\\ 熵：\\ H[P]=E[-log\; p(x)]=\int -p(x)log\; p(x)\mathrm{d}x(连续)\\ H[P]=E[-log\; p(x)]=-\sum_{i=1}^{N}p(x)log\; p(x)(离散)$

离散情况下的最大熵

假设 $x$ 是离散的：

x	1	2	$\cdots$	k
P	$p_{1}$	$p_{2}$	$\cdots$	$p_{k }$

通过求解以下约束优化问题可以求得使得离散情况下熵最大的分布：

$\left\{\begin{matrix} max\; H[P]=max-\sum_{i=1}^{k}p_{i}log\; p_{i} \\ s.t.\; \sum_{i=1}^{k}p_{i}=1 \end{matrix}\right.\Leftrightarrow \left\{\begin{matrix} min\sum_{i=1}^{k}p_{i}log\; p_{i}\\ s.t.\; \sum_{i=1}^{k}p_{i}=1 \end{matrix}\right.$

使用拉格朗日乘子法进行求解：

$L(P,\lambda )=\sum_{i=1}^{k}p_{i}log\; p_{i}+\lambda (1-\sum_{i=1}^{k}p_{i})\\ \frac{\partial L}{\partial p_{i}}=log\; p_{i}+p_{i}\frac{1}{p_{i}}-\lambda =log\; p_{i}+1-\lambda =0\\ \Rightarrow \hat{p}_{i}=exp(\lambda -1)\\ 也就是说每个\hat{p}_{i}都等于exp(\lambda -1)，由\sum_{i=1}^{k}p_{i}=1可以得到：\\ \hat{p}_{1}=\hat{p}_{2}=\cdots =\hat{p}_{k}=\frac{1}{k}\\ \therefore P(x)是均匀分布。$

离散情况下均匀分布会使得熵最大。也就是说在没有任何已知条件约束的情况下均匀分布的熵最大。

最大熵原理

上一部分得出在无任何已知的情况下的最大熵对应的分布为均匀分布，而在满足一定的约束（已知事实）的条件下就要使用最大熵原理来进行求解。

首先要说明已知事实指的就是我们已经有了一部分数据：

$Data=\left \{x_{1},x_{2},\cdots ,x_{N}\right \}$

然后根据数据我们可以定义其经验分布：

$\hat{p}(x=n)=\hat{p}(n)=\frac{count(n)}{N}$

通过该分布可以获得数据的一些属性，比如 $E_{\hat{p}}[x],Var_{\hat{p}}[x],\cdots$ 。另外我们假设 $f(x)$ 是任意关于 $x$ 的函数向量，满足：

$E_{\hat{p}}[f(x)]=\Delta \\ 其中f(x)=\begin{pmatrix} f_{1}(x)\\ f_{2}(x)\\ \vdots \\ f_{Q}(x) \end{pmatrix}\; \; \Delta =\begin{pmatrix} \Delta _{1}\\ \Delta _{2}\\ \vdots \\ \Delta _{Q} \end{pmatrix}$

也就是说现在需要满足上述约束条件，于是在该约束下求解最大熵的分布就转换成了一个约束优化问题：

$\left\{\begin{matrix} min\; \sum _{x}p(x)log\; p(x)\\ s.t.\; \sum _{x}p(x)=1\\ E_{p}[f(x)]=E_{\hat{p}}[f(x)]=\Delta \end{matrix}\right.$

然后就可以使用拉格朗日乘子法进行求解，首先定义拉格朗日函数：

$L(P,\lambda _{0},\lambda )=\sum _{x}p(x)log\; p(x)+\lambda _{0}(1-\sum _{x}p(x))+\lambda ^{T}(\Delta -E_{p}[f(x)])$

接着对 $p(x)$ 进行求导，这里指的是对每个 $p(x_{i})$ 进行求导：

$\frac{\partial L}{\partial p(x)}=log\; p(x)+p(x)\frac{1}{p(x)}-\lambda _{0}-\lambda ^{T}\frac{\partial \sum _{x}p(x)f(x)}{\partial p(x)}\\ =log\; p(x)+1-\lambda _{0}-\lambda ^{T}f(x)\\ =0\\ \Rightarrow log\; p(x)=\lambda ^{T}f(x)+\lambda _{0}-1\\ \Rightarrow p(x)=exp\left \{\lambda ^{T}f(x)-(1-\lambda _{0})\right \}$

显示 $p(x)$ 是一个指数族分布，因此对于连续变量 $x$ ，其在满足既定事实的条件下对应的最大熵的分布是一个指数族分布。

最后编辑于：2021.06.10 20:27:23

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 215,634评论 6赞 497
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,951评论 3赞 391
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 161,427评论 0赞 351
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,770评论 1赞 290
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,835评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,799评论 1赞 294
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,768评论 3赞 416
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,544评论 0赞 271
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,979评论 1赞 308
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,271评论 2赞 331
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,427评论 1赞 345
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,121评论 5赞 340
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,756评论 3赞 324
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,375评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,579评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,410评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,315评论 2赞 352