2019-03-1

ML——贝叶斯分类器

贝叶斯决策论

贝叶斯决策论:概率框架下实施决策的基本方法。对分类任务而言,考虑如何基于概率和误判损失来选择最优的类别标记。

条件风险/期望损失:

贝叶斯判定准则:为最小化总体风险,在每个样本上选择能使条件风险R(c|x)最小的类别标记,即h^*(x)=\mathop{\arg\min}_{c\in Y} R(c|x)

欲使用贝叶斯判定准则最小化决策风险,首先应获得后验概率P(c|x):

       判别式模型:直接学习决策分布P(c|x)。eg决策树、SVM等;

       生成式模型:能够基于模型重新产生数据。eg贝叶斯等。

因此,估计P(c|x)转化为估计先验P(c)和似然P(x|c)。

极大似然估计(MLE)

频率主义学派:参数未知,但存在固定值,优化似然函数可确定参数值;

贝叶斯学派:参数是未观察到的随机变量,假定其服从一个先验分布,基于观测到的数据计算参数的后验分布。

基于频率主义学派的MLE就是去找未知的参数估计值,使样本发生的概率最大.

朴素贝叶斯分类器

基于贝叶斯公式估计后验概率P(c|x)的主要困难在于,似然P(x|c)是所有属性上的联合概率,难以从有限的训练样本直接估计而得。基于此,朴素贝叶斯(NB)分类器采用“属性条件独立性假设”。此时后验概率可重写为:

对应的贝叶斯判定准则为:

                       h_{nb}(x)=\mathop{\arg\max}_{c\in Y}P(c)\prod_{i=1}^d P(x_i|c)

训练

D_c表示训练集D中第c类样本组合的集合,类先验概率为:

                                       P(c)=\frac{\vert D_c \vert }{\vert D \vert }

离散属性:D_{c,x_i}表示D_c中在第i个属性上取值为x_i的样本组成的集合,则条件概率P(x_i|c)为:

                                      P(x_i|c)=\frac{\vert D_{c,x_i} \vert }{\vert D_c \vert }

连续属性:考虑概率密度函数,假定p(x_i|c) \sim N(\mu _{c,i},\sigma _{c,i}^2 ),其中\mu _{c,i}\sigma _{c,i}^2分别是第c类样本在第i个属性上去指导均值和方差,则有:

                   P(x_i|c)=\frac{1}{\sqrt{2\pi }\sigma _{c,i} } exp(-\frac{(x_i-\mu _{c,i})^2}{2\sigma _{c,i}^2} )^2

拉普拉斯修正:避免因训练集样本不充分导致概率估计值为0的问题;训练集变大时,修正过程引入的先验的影响可逐渐忽略,估值渐趋于实际概率值。

贝叶斯垃圾邮件过滤:

给定一封邮件,可用贝叶斯分类器判断其是否为垃圾邮件。用D表示这封邮件,D由N个单词组成,用h+表示垃圾邮件,h-表示正常邮件,则问题可形式化为:

P(h+|D)=P(h+)*P(D|h+)/P(D)\\P(h-|D)=P(h-)*P(D|h-)/P(D)

其中先验P(h+)与P(h-)易得,只需计算一个邮件库里面垃圾邮件和正常邮件的比例即可。然而似然P(D|h+)不易得,因为D中含有N个单词d1,d2,...故P(D|h+)=P(d1,d2,...dn|h+)=P(d1|h+)*P(d2|d1,h+)*P(d3|d2,d1,h+)*...。此时基于朴素贝叶斯的条件独立假设,可将式子简化为:P(D|h+)=P(d1|h+)*P(d2|h+)*P(d3|h+)*...,即假设di与dj(i不等于j)是相互独立的。此时只要统计di这个单词在垃圾邮件中出现的频率即可。

半朴素贝叶斯分类器

现实任务中属性条件独立假设很难成立,因此提出了半朴素贝叶斯分类器以适当考虑一部分属性间的相互依赖信息。独依赖估计(ODE)是半朴素贝叶斯分类器最常用的一种策略,即假设每个属性在类别之外最多仅依赖一个其他属性:

不同分类器考虑不同的属性依赖关系:

贝叶斯网

贝叶斯网(信念网)用有向无环图(DAG)刻画属性间的依赖关系,并用条件概率表(CPT)描述属性的联合概率分布。

西瓜问题的贝叶斯网络结构

结构

贝叶斯网络表达了属性间的条件独立性,给定父节点集,假设每个属性与其非后裔属性独立,则联合概率分布定义为:

            P_B(x_1,x_2,...,x_d)=\prod_{i=1}^d P_B(x_i|\pi _i)=\prod_{i=1}^d \theta _{x_i|\pi _i}

上述西瓜问题的联合概率分布可写为:

           P(x1,x2,x3,x4,x5)=P(x1)P(x2)P(x3|x1)P(x4|x1,x2)P(x5|x2)

贝叶斯网络三个变量间分典型依赖关系

为分析有向图中变量间的条件独立性,可用有向分离产生道德图(无向图),令父结点相连的过程称为“道德化”。有向分离步骤如下:

1)找出有向图中所有V型结构,在V型结构的两个父结点上加一条无向边;

2)将所有有向边改为无向边。

学习

若网络结构已知,只需对训练样本计数,估计每个结点的条件概率即可;但现实中网络结构往往未知,因此学习的首要任务就是找出结构最恰当的贝叶斯网,常用“评分搜索”求解:

基于最小描述准则的评分函数

其中LL(B|D)=\sum_{i=1}^m logP_B (x_i)

AIC评分函数:f(θ)=1,即每个参数用1个字节描述;

BIC评分函数:f(\theta )=\frac{1}{2} logm,即每个参数用\frac{1}{2} logm个字节描述;

负对数似然:f(θ)=0,即不计算对网络进行编码的长度,则学习任务退化为极大似然估计。

由于从网络结构空间搜索最优贝叶斯网络难以快速求解,一般采取两种策略求取近似解:1)贪心法,eg从某网络结构出发,每次调整一条边(增加、删除/调整方向)直至评分函数不再降低;2)给网络函数施加约束削减搜索空间,eg将网络结构限定为树形结构等。

推断

通过已知变量观测值来推测待查询变量的过程叫“推断”,已知变量观测值叫“证据”。贝叶斯网的近似推断常用Gibbs sampling完成。

吉布斯采样算法

EM算法

若碰到“不完整”的训练样本,eg西瓜根蒂脱落,无法判断其为“蜷缩”还是“硬挺”,这种“未观测”变量叫做“隐变量”。可通过对Z求期望来最大化已观测数据的对数“边际似然”。

最大化已观测数据的对数“边界似然”

EM算法是一种常用的估计参数隐变量的迭代方法,一般使用两个步骤交替计算:STEP1(E步):利用当前估计参数值计算对数似然的期望值;STEP2(M步):寻找使E步产生似然期望最大化的参数值。新得到的参数值重新被用于E步,直至收敛到局部最优解。

周志华《机器学习》

https://blog.csdn.net/v_JULY_v/article/details/7577684

https://blog.csdn.net/v_JULY_v/article/details/40984699

https://blog.csdn.net/Julialove102123/article/details/79831002

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容