朴素贝叶斯分类

朴素贝叶斯分类算法

定义

朴素贝叶斯(naive Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法。 对于给定的训练数据集,首先基于特征条件独立假设 学习输入/输出联合概率分布;然后基于此模型,对于给定的输入x,利用贝叶斯定理求出后验概率的最大输出y。

原理分析

基本原理

它的本质是将实例分到后验概率最大的类中,等价于期望风险最小化。这里假设选择了0-1损失函数。

L(Y,f(X))=\begin{cases}0, Y=f(X)【无损失,分类正确】\\1,Y\neq f(X)【损失】\end{cases}

其中,f(X)为分类决策函数,期望风险函数为R_{exp}(f)=E_p[L(Y),f(x))]

期望是对联合分布P(X,Y)取的,由此可得

R_{exp}(f)=E_x\sum_{k=1}^K[L(c_k,f(X))]P(c_k|X)

需要使期望风险最小化,化简后可得到

f(x)=\underset{y\in Y}{\operatorname{argmax}}P(y=c_k|X=x)[后验概率]

【不过我之前一直理解的是,后验概率的意思是,求测试案例可能在哪个类别的概率比较大。似乎不严谨】

公式推理

[这里考虑的是简单的离散的情况]

若求x在哪一个类别(假设类别是、c_1、c_2等),则也就是等价于求后验概率

\underset{c_{k}}{\operatorname{argmax}}P(Y=c_k|X=x)

又根据公式,有P(Y|X)=\frac{P(X,Y)}{P(X)}P(X|Y)=\frac{P(X,Y)}{P(Y)}

P(Y|X)=\frac{P(Y)P(X|Y)}{P(X)}【可认为后验概率=先验概率×调整因子】

  • 先验概率分布 P(Y=c_k),k=1,2,…,K

  • 条件概率分布

    P(X=x|Y=c_k)=P(X^1=x^1,…,X^n=x^n|Y=c_k)
    k=1,2,…,K

    因为是条件独立性假设,认为每个属性独立地对分类结果发生影响。

    P(X=x|Y=c_k)=P(X^1=x^1,…,X^n=x^n|Y=c_k)

    =\prod^n_{j=1}P(X^j=x^j|Y=c_k)

  • 全概率公式

    P(X=x)=\sum_{k}P(Y=c_k)P(X=x|Y=c_k)
    = \sum_kP(Y=c_k)\prod_jP(X^j=x^j|Y=c_k)

因此,将以上公式代入,有

P(Y=c_k|X=x)=\frac{P(Y=c_k)\prod_jP(X^j=x^j|Y=c_k)}{\sum_kP(Y=c_k)\prod_jP(X^j=x^j|Y=c_k)}

又因为,分母对所有c_k都是相同的,所以实际求

\underset{c_{k}}{\operatorname{argmax}}P(Y=c_k)\prod_jP(X^j=x^j|Y=c_k)

由于连乘操作易造成溢出,往往使用log计算,相关计算可参考“极大似然估计”

【具体计算过程、案例可参考《统计学习方法》】

拉普拉斯平滑

若某个属性值在训练集中没有与某个类同时出现过,直接进行概率估计,由于连乘的存在,很可能出现零。

为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”,在估计概率值时通常要进行平滑,常用拉普拉斯修正。具体来说,令N表示训练集D中可能的类别数,N_i表示第i个属性可能的取值数目,则有

\hat{P}(Y=c_k)=\frac{|D_k|+1}{|D|+N}

\hat{P}(X=x^j|Y=c_k)=\frac{|D_{x^j,c_k}|+1}{|D_k|+N_i}

用途用法

朴素贝叶斯分类常用于文本分类等应用,对字词处理有比较大的作用。

在文档分类中,整个文档(如一封电子邮件)是实例,而电子邮件中的某些元素则构成特征。虽然电子邮件是一种会不断增加的文本,但我们同样也可以对新闻报道、用户留言、政府公文等其他任意类型的文本进行分类。我们可以观察文档中出现的词,并把每个词的出现或者不出现作为一个特征,这样得到的特征数目就会跟词汇表中的词目一样多。

【《机器学习实战》中有详细介绍如何用它进行垃圾邮件分类。】

朴素贝叶斯分类也可以通过调用sklearn直接使用。

优缺点

优点:在数据较少的情况下仍然有效,可以处理多类别问题。
缺点:对于输入数据的准备方式较为敏感。
适用数据类型:标称型数据。

关于贝叶斯一个很好的视频讲解:
https://www.bilibili.com/video/av84799361?from=search&seid=14107288402642206884

新证据不能凭空做决定 仅仅是更新你的先验看法
根据新证据 更新看法 所以有先验概率 后验概率

参考资料

[1] P. 哈林顿 (Harrington and 李锐, 机器学习实战. 2013.

[2] 李航, 统计学习方法. 2012.

[3] 周志华, 机器学习. 2016.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。