1、贝叶斯决策论
贝叶斯决策论(Bayesian decision theory)是概率框架下实施决策的基本方法。其核心思想建立在贝叶斯定理之上。
关于贝叶斯公式的理解有多种说法,其中“执果寻因”是我个人比较偏好的一种理解,也就是说把看作的因,把看作的果。当我们观察到时,希望知道是何种导致了B的可能性最大,此时就可以使用贝叶斯公式求解。对于分类问题,我们也可以套用这样的解释,用表示类别,表示特征向量,那么可以看作的因,因为类别很大程度上决定了特征,就好像基因决定表现型,后天成长环境的影响可以视为扰动。这样一来通过当前特征向量来推测样本属于各类的概率就可以通过贝叶斯公式完成。下面我们看一下贝叶斯定理中的关键概念:
首先是先验概率(prior probability),所谓先验概率我的理解是“盲猜”概率,就是我们先不看样本所对应的特征向量,直接根据以往的经验对其属于各类的概率作为预测。比如说,按照以往的经验,经济系的男生女生人数差不多,那么在一次经济系的班会上,有一位同学敲门,在我们开门之前,就可以说,这位同学是男生的概率约为50%。这个先验概率看似简单,但它是贝叶斯学派相比频率学派的一大优势,因为频率学派只是基于当前信息计算概率,并没有使用到先验概率,而先验概率对很多问题是很重要的。当然先验概率是一把双刃剑,如果先验概率设定的不好,那么就适得其反。
如果我们仅使用先验信息做决策,那么先验概率大的类别就是我们要将样本划入的类别。在没有关于当前样本信息的情况下,这样做是可以的,但若有样本特征,我们就忽略了特征中隐藏的关于类别的信息。
另一个重要的概念是可能性(likelihood),可能性是对于特定类别而言的,可以陈述为“若一个人是男生,他会抽烟的可能性为60%,若一个人是女生,她会抽烟的可能性为20%”,可能性的概念蕴含的信息其实是类别和特征的一种相关性,这对我们通过特征推断类别是很有用的,还拿刚刚的例子来说,当我们知道一个人抽烟以后,我们第一反应就是这个人很可能是个男生,因为男生当中抽烟的比例大,或者说男生抽烟的可能性大。这也是我们平时习惯的思维模式,但这样的推断同样是不严谨的,因为我们忽略了先验信息,即当我们不知道一个人吸不吸烟的时候对其分类的概率,这可以由性别比例计算出来。若按男女比例是1:3呢,我们该如何分类呢,很明显,这时男女样本中烟民的数量一样,因此我们应该说这个人有50%的可能是男生。
从上面这个简单的例子我们可以看出,利用先验概率和可能性这两类信息,我们就可以根据样本的特征对类别概率做出推测了,除此之外不再需要其它的信息。
后验概率(Posterior Probability)就是把先验概率和可能性两种信息综合起来了,其实根据先验概率和可能性乘积的大小我们就可以求出分类结果了,这里后验概率在此基础上除了一个分母可以看作是正则项,只是为了满足概率的正则性。
根据后验概率做出分类决策的规则称为最优贝叶斯决策规则,这个最优不难理解,就是这样做出的分类决策损失永远是最小的,证明如下:
当然这是建立在错误分类的代价都相同的假设之上,如果错误分类代价不同,我们可以引出贝叶斯风险(Bayesian Risk)的概念:
可以看到,若我们的分类器可以对每个样本都最小化风险,那么总体风险也将是最小的,毫无疑问,这样的分类器是最优的,被称为贝叶斯最优分类器(Bayes optimal classifier),反映了分类器所能达到的最好性能,也是通过机器学习能产生的模型精度的理论上限。
既然贝叶斯最优分类器这么好,我们就找到后验概率然后用贝叶斯规则最小化决策风险不就ok了吗?关键问题是,后验概率并不容易获得。
事实上,我们手上只有部分数据,无法获得准确的整个样本集的后验概率。因此接下来我们需要解决的问题是,如何基于有限的训练样本集尽可能准确地估计出后验概率。
2、极大似然估计(MLE)
为了对后验概率进行估计,我们可以先假定Likelihood的分布(我们假定训练样本的分布与总体的分布相同)且其分布由一系列参数决定,从而我们的任务就转化成利用训练集估计参数,从而得到Likelihood的分布,再结合对先验概率的估计(可通过训练样本中各类样本出现的概率来进行估计)即可得到对后验概率的估计。
极大似然估计是一种频率学派的参数估计方法,频率学派认为参数未知但客观存在固定值,因此可通过优化似然函数等准则来确定函数值。
极大似然估计的思想很简单,就是计算出特定参数下产生当前训练样本的可能性(用似然函数表示),最大化这个可能性,对应的参数值就是我们求得的解。通俗来说,就是使得当前训练样本集出现可能性最大的参数值。
这种方法的优点如下:
不足在于:
3、朴素贝叶斯分类器
朴素贝叶斯的思路朴素,就是假设所有属性相互独立,然后避开联合概率。可以看到,在此假设下,我们可以直接基于训练集计算出后验概率的估计。但这里还有一个问题,就是当特征维度很多的时候会出现某个样本中某种特征组合从未出现过的局面,这很可能对最后模型的结果产生不好的影响。为了解决这个问题我们可以使用拉普拉斯平滑:
西瓜书上还介绍了半朴素贝叶斯分类器,其放宽了朴素贝叶斯分类器的假设,适当考虑部分属性间的相互依赖信息,书上描述了多种寻找这种依赖关系的算法,在此就不一一赘述了。
其实现实的情况中,各个属性之间的关系是很复杂的。我记得以前学习线性回归的时候,有一个很大的问题就是解决各属性之间的相关性,比如说属性中有“身高”“体重”两项,那么这两个属性就会表现出很强的正相关性,因此这样的特征选取冗余性就比较大,最后回归系数的意义就不太大。这里寻找属性之间依赖关系我觉得本质上也是在去除这种冗余性,从而使得分类效果更好。比如说,如果我们发现色泽属性依赖于敲声,敲声清脆则色泽青绿,敲声浊响则色泽非青绿,而敲声清脆和色泽青绿对应的是好瓜,那么现在有一个敲声清脆而色泽非青绿的瓜,应该如何分类呢?这时候依赖关系就发挥作用了,我们可以认为敲声清脆优先级更高而判断该样本是一个好瓜。
4、贝叶斯网
(略)
5、EM算法
EM算法西瓜书上的算法描述部分很清晰: