几个基本概念:
a. likelihood就是“似然”,可以理解为概率乘积。
b. 判别函数:判断某个特征矢量属于哪个类别的函数
c. P: 离散变量的概率 p:连续变量的概率
d. 独立同分布 independent and identically distributed 缩写为i.i.d.
e. 充分统计量:参数能够充分地毫无遗漏地反映出数据X 的分布特点。简单的说,知道了充分统计量我们就可以扔掉样本,因为样本里的信息全都被包含在充分统计量里面。再简单的说,他就相当于无损压缩。(此句话来自知乎)
最大似然估计
- 在贝叶斯决策定理中,我们感兴趣的是给定下的类别的后验概率。
从这,对于分类任务,我们得到基于判别函数的决策定理。
这时,我们需要知道先验概率以及条件概率分布。在实际生活中,分布的具体形式很难知道,我们需要通过数据去估计它们。
我们有一些样品,,特征向量包含数据的一些特征,对应的标签指的是对应的类别。
先做重要的假设:假设样品之间独立被取出,也就是对于任意的都有。又假设, 对于的任意样品都是从同一个分布中取出的。也就是说,样品都是独立同分布的。
好了,现在开始估计了。
估计先验概率是很容易的,因为每个概率都只是一个数。
条件概率分布是在上连续的概率密度,在高维很难算。我们通过假设低维参数分布来简化对条件概率的估计,例如高斯分布。
对于分布的类别来说,参数是充分统计量,也就是说分布仅仅被这些参数决定。
对于一个单一的类别,假设是这个类别下的被选的数据。
以下函数可以解释为,给定数据下的分布参数的似然。
最大似然定律选择使似然最大时的参数。
实际上,更方便的是最大化 log likelihood。
最大值估计
如果是光滑函数,也就是两次可微,那么得到局部最大值的条件是导数为0。导数是偏微分向量:
为了辨别得到的是本地最小值还是本地最大值,要判断两次微分后的矩阵(Hessian)是正是负。 - 多变量的高斯分布
假设样本从多变量的高斯分布中取出,那么判别函数有:
均值和协方差参数是高斯分布的充分统计量。
可以得出,数据的似然:
对数化:
对求偏微分得:
在最大值处,必须满足:
可得:
这个数就是样本的均值。
注意:不是的函数,所以我们可以接着求。
这个数就是样本的方差。
现在,我们得到了在高斯条件分布下的贝叶斯决策器:
3.最大似然估计的偏差
什么是一个好的估计器?评判标准:均方根误差
可以看出,最大似然估计对均值的估计是无偏的:。
但是,它对方差的估计是有偏差的:。
纠正过的估计器是无偏的。
贝叶斯估计
1.最大似然估计与贝叶斯估计的区别:
最大似然估计是假设参数是固定的,尝试用数据来估计。贝叶斯估计则把参数当成是随机变量,假设先验概率基于领域知识(domain knowledge)。
2.最大后验分布MAP
贝叶斯算法是基于最大后验分布来估计参数。
因为不影响最大值,我们将它舍掉。
现在,判别函数可以写为
- 全贝叶斯 Full Bayesian
Full Bayesian 与Bayesian是不同的。全贝叶斯使用指定的先验分布,也就是利用参数的整个后验分布,我们可以边缘化特定参数对估计类别条件密度的影响。而经验贝叶斯允许通过使用数据来估计先验分布。 - 如果先验分布不知道,那么:
a. 具有均匀先验的最大后验分布方法简化到最大似然估计。
b. 先验可以通过具有很大值的协方差的高斯先验来近似。