朴素贝叶斯

基本方法

朴素贝叶斯定理是基于联合概率分布以及特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入输出的联合概率分布；然后基于次模型，对给定输入 $x$ ，利用贝叶斯定理求出后验概率最大的输出 $y$ 。朴素贝叶斯法实现简单，学习与预测的效率都很高，是一种常用的方法。

设输入空间 $\mathcal{X} \subseteq \mathbb{R}^n$ 为 $n$ 维向量的集合，输出空间的类标记 $\mathcal{Y}={c_1,c_2,...,c_k}$ 。输入的特征向量 $x \in \mathcal{X}$ ，输出的类标记 $y \in \mathcal{Y}$ 。 $X$ 是定义在输入空间 $\mathcal{X}$ 上的随机向量， $y$ 是定义在输出空间 $\mathcal{Y}$ 上的随机变量。 $P(X,Y)$ 是 $X$ 和 $Y$ 的联合概率分布。训练数据集
$T={(x_1,y_1),(x_2,y_2),...,(x_n,y_n)}$
由 $P(X,Y)$ 独立同分布产生。

朴素贝叶斯通过训练集学习联合概率分布 $P(X,Y)$ ，具体来说先学习一下先验概率以及条件概率分布。

先验概率分布：
$P(Y=c_i),i=1,2,3...k$
假设输入样本 $x$ 有 $n$ 个特征，条件概率分布：
$P(X=x|Y=c_i)=(X_1=x_1,X_2=x_2,...X_n=x_n|Y=c_i)$
若第 $i$ 个特征可能的取值集合大小为 $S_i$ ，则模型的将训练指数级别的参数 $k\prod_{i=1}^nS_i$ 。在实际应用中不可行，因此假设当类确定是，每个特征是相互独立的即：
$\begin{align} P(X=x|Y=c_i)=&(X_1=x_1,X_2=x_2,...X_n=x_n|Y=c_i)\\ =&\prod_{j=1}^nP(X_j=x_j|Y=c_i) \end{align}$
朴素贝叶斯公式是生成式模型，在分类的过程中，通过学习到的模型计算后验概率分布 $P=(Y=c_i|X=x)$ ，将后验概率最大的类作为模型的输出。
$\begin{align} P(Y=c_i|X=x)=&\frac{P(Y=c_i)P(X=x|Y=c_i)} {\sum_{i=1}^kP(Y=c_i)P(X=x|Y=c_i)} \\ \\ =&\frac{P(Y=c_i)\prod_{j=1}^nP(X_i=x_i|Y=c_i)}{\sum_{i=1}^kP(Y=c_i)\prod_{j=1}^nP(X_j=x_j|Y=c_i)} \end{align}$
其中分母是累加求和与具体的类无关，因此只需将上式的分子最大化：
$y=arg\max_{c_i}\prod_{j=1}^nP(X_j=x_j|Y=c_i)$

极大似然估计

在朴素贝叶斯方法中，模型训练意味着估计 $P(Y=c_i)$ 以及 $P(X_j=x_j|Y=c_i)$ 。可以应用极大似然估计来估计相应的概率。假设训练集的大小为N， $I$ 为指示函数
$P(Y=c_k)=\frac{\sum_i^nI(y_i=c_k)}{N}$
假设 $a_{il}$ 为第 $i$ 个特征的第 $l$ 个取值
$\begin{align} P(X_{il}=a_{il}|Y=c_k)=&\frac{\sum_i^nI(X_{il}=a_{il},Y=c_k)}{\sum_i^nI(y_i=c_k)} \end{align}$

学习与分类算法

输入：训练数据集 $T={(x_1,y_1),(x_2,y_2),...,(x_n,y_n)}$ ，其中 $x_i=(x_i^1,x_i^2,...,x_i^n)^T$ ，其中 $x_{ij}$ 表示第 $i$ 个样本第 $j$ 个特征的取值。 $x_i^l\in \{a_{j1},a_{j2},...,a_{jL}\}$ ， $a_{jl}$ 是第 $j$ 个特征的第 $l$ 个取值， $j=1,2,...,n$ ， $l=1,2,...,L$ ， $y_i\in \{c_1,c_2,...,c_k\}$ ；实例 $x$

输出:实例 $x$ 的分类。

（1）先计算先验概率及条件概率
$P(Y=c_k)=\frac{\sum_i^nI(y_i=c_k)}{N}\\ P(X=a_{jl}|y=c_k)=\frac{\sum_{i=1}^nI(x_i^l=a_{jl},y=c_k)}{\sum_{i=1}^nI(y_i=c_k)}$
（2）对给定的实例 $x_i=(x_i^1,x_i^2,...,x_i^n)^T$ ，计算
$P(Y=c_k)\prod_{j=1}^nP(X_j=x_j|Y=c_k)$
（3）确定实例 $x$ 的类
$y=arg\max_{c_k}P(Y=c_k)\prod_{j=1}^nP(X_j=x_j|Y=c_k)$

最后编辑于：2020.05.04 16:41:31