贝叶斯分类器

1、贝叶斯决策论

贝叶斯决策论(Bayesian decision theory)是概率框架下实施决策的基本方法。其核心思想建立在贝叶斯定理之上。

关于贝叶斯公式的理解有多种说法,其中“执果寻因”是我个人比较偏好的一种理解,也就是说把A看作B的因,把B看作A的果。当我们观察到B时,希望知道是何种A导致了B的可能性最大,此时就可以使用贝叶斯公式求解。对于分类问题,我们也可以套用这样的解释,A表示类别,B表示特征向量,那么A可以看作B的因,因为类别很大程度上决定了特征,就好像基因决定表现型,后天成长环境的影响可以视为扰动。这样一来通过当前特征向量来推测样本属于各类的概率就可以通过贝叶斯公式完成。下面我们看一下贝叶斯定理中的关键概念:

首先是先验概率(prior probability),所谓先验概率我的理解是“盲猜”概率,就是我们先不看样本所对应的特征向量,直接根据以往的经验对其属于各类的概率作为预测。比如说,按照以往的经验,经济系的男生女生人数差不多,那么在一次经济系的班会上,有一位同学敲门,在我们开门之前,就可以说,这位同学是男生的概率约为50%。这个先验概率看似简单,但它是贝叶斯学派相比频率学派的一大优势,因为频率学派只是基于当前信息计算概率,并没有使用到先验概率,而先验概率对很多问题是很重要的。当然先验概率是一把双刃剑,如果先验概率设定的不好,那么就适得其反。

如果我们仅使用先验信息做决策,那么先验概率大的类别就是我们要将样本划入的类别。在没有关于当前样本信息的情况下,这样做是可以的,但若有样本特征,我们就忽略了特征中隐藏的关于类别的信息。

另一个重要的概念是可能性(likelihood),可能性是对于特定类别而言的,可以陈述为“若一个人是男生,他会抽烟的可能性为60%,若一个人是女生,她会抽烟的可能性为20%”,可能性的概念蕴含的信息其实是类别和特征的一种相关性,这对我们通过特征推断类别是很有用的,还拿刚刚的例子来说,当我们知道一个人抽烟以后,我们第一反应就是这个人很可能是个男生,因为男生当中抽烟的比例大,或者说男生抽烟的可能性大。这也是我们平时习惯的思维模式,但这样的推断同样是不严谨的,因为我们忽略了先验信息,即当我们不知道一个人吸不吸烟的时候对其分类的概率,这可以由性别比例计算出来。若按男女比例是1:3呢,我们该如何分类呢,很明显,这时男女样本中烟民的数量一样,因此我们应该说这个人有50%的可能是男生。

从上面这个简单的例子我们可以看出,利用先验概率和可能性这两类信息,我们就可以根据样本的特征对类别概率做出推测了,除此之外不再需要其它的信息。

后验概率(Posterior Probability)就是把先验概率和可能性两种信息综合起来了,其实根据先验概率和可能性乘积的大小我们就可以求出分类结果了,这里后验概率在此基础上除了一个分母可以看作是正则项,只是为了满足概率的正则性。

根据后验概率做出分类决策的规则称为最优贝叶斯决策规则,这个最优不难理解,就是这样做出的分类决策损失永远是最小的,证明如下:

当然这是建立在错误分类的代价都相同的假设之上,如果错误分类代价不同,我们可以引出贝叶斯风险(Bayesian Risk)的概念:

可以看到,若我们的分类器h^*可以对每个样本x都最小化风险R(\alpha_i|x),那么总体风险R也将是最小的,毫无疑问,这样的分类器h^*是最优的,被称为贝叶斯最优分类器(Bayes optimal classifier),1-R(h^*)反映了分类器所能达到的最好性能,也是通过机器学习能产生的模型精度的理论上限。

既然贝叶斯最优分类器这么好,我们就找到后验概率然后用贝叶斯规则最小化决策风险不就ok了吗?关键问题是,后验概率并不容易获得。

事实上,我们手上只有部分数据,无法获得准确的整个样本集的后验概率。因此接下来我们需要解决的问题是,如何基于有限的训练样本集尽可能准确地估计出后验概率。

2、极大似然估计(MLE)

为了对后验概率进行估计,我们可以先假定Likelihood的分布(我们假定训练样本的分布与总体的分布相同)且其分布由一系列参数决定,从而我们的任务就转化成利用训练集估计参数,从而得到Likelihood的分布,再结合对先验概率的估计(可通过训练样本中各类样本出现的概率来进行估计)即可得到对后验概率的估计。

极大似然估计是一种频率学派的参数估计方法,频率学派认为参数未知但客观存在固定值,因此可通过优化似然函数等准则来确定函数值。

极大似然估计的思想很简单,就是计算出特定参数下产生当前训练样本的可能性(用似然函数表示),最大化这个可能性,对应的参数值就是我们求得的解。通俗来说,就是使得当前训练样本集出现可能性最大的参数值

这种方法的优点如下:

不足在于:

3、朴素贝叶斯分类器

朴素贝叶斯的思路朴素,就是假设所有属性相互独立,然后避开联合概率。可以看到,在此假设下,我们可以直接基于训练集计算出后验概率的估计。但这里还有一个问题,就是当特征维度很多的时候会出现某个样本中某种特征组合从未出现过的局面,这很可能对最后模型的结果产生不好的影响。为了解决这个问题我们可以使用拉普拉斯平滑:

西瓜书上还介绍了半朴素贝叶斯分类器,其放宽了朴素贝叶斯分类器的假设,适当考虑部分属性间的相互依赖信息,书上描述了多种寻找这种依赖关系的算法,在此就不一一赘述了。

其实现实的情况中,各个属性之间的关系是很复杂的。我记得以前学习线性回归的时候,有一个很大的问题就是解决各属性之间的相关性,比如说属性中有“身高”“体重”两项,那么这两个属性就会表现出很强的正相关性,因此这样的特征选取冗余性就比较大,最后回归系数的意义就不太大。这里寻找属性之间依赖关系我觉得本质上也是在去除这种冗余性,从而使得分类效果更好。比如说,如果我们发现色泽属性依赖于敲声,敲声清脆则色泽青绿,敲声浊响则色泽非青绿,而敲声清脆和色泽青绿对应的是好瓜,那么现在有一个敲声清脆而色泽非青绿的瓜,应该如何分类呢?这时候依赖关系就发挥作用了,我们可以认为敲声清脆优先级更高而判断该样本是一个好瓜。

4、贝叶斯网

(略)

5、EM算法

EM算法西瓜书上的算法描述部分很清晰:

推导的部分见http://cs229.stanford.edu/notes/cs229-notes8.pdf

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,711评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,079评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,194评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,089评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,197评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,306评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,338评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,119评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,541评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,846评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,014评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,694评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,322评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,026评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,257评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,863评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,895评论 2 351

推荐阅读更多精彩内容