西瓜书学习笔记-贝叶斯分类器

贝叶斯分类器

1 贝叶斯决策理论

概率框架下实施决策的基本方法。其基于已知概率和误差损失来选择最优类别标记。

显然,每个样本若能最小化风险,则总体风险R(h)也将最小。由此产生了贝叶斯判定准则:为了最小化总体风险,只需要从每个样本选择使得条件风险R(c|x)最小的标记。

h称为贝叶斯最优分类器,总体风险R(h)称为贝叶斯风险。
1 - R(h*)反应了分类器的最好性能。

具体而言,若是要最小化分类误差。误差损失λij 可以记为:

显然,欲使用贝叶斯准则来最小化风险,首先要获取后验概率,然而在现实任务中这很难直接获得。所以,机器学习的目的是尽可能准确的估计出后验概率P(c|x)。有两种策略:
给定x,可以直接通过建模P(c|x)预测c,得到的是判别式模型。
联合概率分布p(x,c)建模,再获得P(c|x),这样是生成式模型。


产生式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的概念,它们的区别在于:

对于输入x,类别标签y:
产生式模型估计它们的联合概率分布P(x,y)
判别式模型估计条件概率分布P(y|x)

产生式模型可以根据贝叶斯公式得到判别式模型,但反过来不行。

两类模型对比:

以上关于判别式模型与生成式模型的比较转自:
https://blog.csdn.net/wolenski/article/details/7985426


对于生产式

由此,估计P(c|x)转为基于训练数据集D估计先验概率P(c)和似然概率P(x|c)。
根据大数定律,P(c)可以通过样本出现的概率直接估计。P(x|c)无法直接估计。
解决的办法就是,把估计P(x|c)转化为估计参数。
这里就将概率密度估计问题转化为参数估计问题,极大似然估计就是一种参数估计方法

2 极大似然估计

为了估计类条件概率,一个常用的策略是先假定其有某种确定的概率分布,再基于训练样本对概率分布的参数进行估计。

具体而言:
类条件概率P(x|c),假定其有固定形式且被参数θ唯一确定,那么我们就需要通过训练集D估计参数θ,P(x|c)记为:P(x|θ)

对θ进行最大似然估计,就是去寻找能够使得P(Dc|θc)最大化的参数θ'。

3 朴素贝叶斯分类器

类条件概率P(x|c)是所有属性上的联合概率,难以从有限的训练样本中进行提取,为此,朴素贝叶斯分类器采用了属性条件独立性假设:对已知的类别,假设所有属性相互独立。

显然,朴素贝叶斯分类器的训练过程就是基于训练集D估计类先验概率P(c)和为每个类别估计条件概率P(x|c)

例子:

然后估计每个条件概率p(xi|c)


...


...

需要注意的是,某条属性的属性值在训练集中没有与某个类同时出现过时,会有以下情况:

在连乘过程中会使得结果为0,处理的方式是进行平滑。

4 半朴素贝叶斯分类器

朴素贝叶斯分类器中假设所有的属性调价相互独立,然而事实上,这个假设在实际任务中很难成立。所以,将属性条件独立性假设适当的放松,产生了“半朴素贝叶斯分类器”。
其基本思想就是适度的考虑一部分属性间的相互依赖性。

最常用的策略是ODE,独依赖估计。假设每个属性最多依赖于一个其它属性。

根据不同的选择父属性的策略,产生了不同的独依赖分类器

5 贝叶斯网

贝叶斯网也称为信念网,其借助无环图来刻画属性之间的关系,并借助条件概率表来描述属性的联合概率分布。
一个贝叶斯网B由结构G和参数θ构成。B = <G,θ>。G是一个有向无环图,其每个结点对应一个属性,若是两个属性之间存在直接依赖关系,那么它们将由一条边连接起来;参数θ定量描述这种关系。

联合概率定义为:

以图7.2为例联合概率为:

同父结构下,给定x1,则x3 x4条件独立。
顺序结构下,给定x,则y z条件独立。
V型结构下,不给定x4,则x1 x2相互独立。

为了分析图中变量的条件独立性,可以使用有向分离。首先将有向图转为无向图:
找出所有V型结构,在父节点之间加边。
该有向边为无向边。

  • 学习过程
    若网络结构已知,那么我们根据属性间的关系,只需要对训练样本计数,估计出每个结点的条件概率表即可。但是,往往无法知晓网络结构。
    所以贝叶斯网学习的首要任务是找出结构最适合的贝叶斯网。
    通常使用的方法是构建评分函数来评估贝叶斯网和训练数据的切合程度。

  • 推测
    贝叶斯网训练完成后就可以用于回答查询,通过一些属性变量的观测值来推断其它属性的取值。
    通过已知变量观测值来推断查询变量的过程叫做推断。已知变量称为证据。
    当网络结点过多且连接稠密时,难以进行精准推断,需要进行近似推断。常用的方法就是吉布斯采样法。

以西瓜问题为例:

吉布斯采样从随机产生一个与证据E = e 一致的样本 q0 开始作为初始点,然后每一步从当前样本出发产生下一个样本。在 t 次采样中,假设 qt = qt-1,然后对非证据变量逐个采样。采样概率根据贝叶斯网络B和其它变量的当前取值计算获得。假定经过T次采样后,与q一致的样本共nq个,则后验概率为:

吉布斯采样实质上是在贝叶斯网所有变量的联合状态空间与证据E = e 一致的子空间进行随机漫步,是一个马尔科夫链(马尔可夫链是满足马尔可夫性质的随机过程)。
马尔科夫性质:已知当前状态为i(n-1)的情况下,下一步状态为i(n)的概率只与i(n-1)有关,与之前的状态无关。

马尔科夫链需要很久才能趋于稳定。

6 EM算法

上面的讨论中,我们假定训练样本中所有属性都可以被观测到,即所有的训练样本都是完整的。但是现实应用中,往往会遇到不完整的训练样本。

然而,由于Z是隐变量,上式无法进行求解。所以通过对Z计算期望,来最大化已观测数据的对数似然。

EM(期望最大化)算法常用来估计参数隐变量,是一种迭代方法。其基本思想是:
E:若参数θ已知,则可以根据训练集推测最优Z
M:若Z已知,则对θ进行最大似然估计

隐变量估计问题也可以通过梯度下降法来进行优化求解。但是因为求和项数随着隐变量的数量指数上升,所以梯度下降法计算不易。EM算法可以视为一种非梯度优化方法。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343

推荐阅读更多精彩内容