朴素贝叶斯

很多分类算法中，特征与标签之间的关系并非决定性的。算法得出的结论，永远不是100%确定对的，更多的是判断出了一种“样本的标签更可能是某类的可能性”，而非一种“确定”。
每种算法使用不同的指标来衡量这种可能性，比如说，决策树使用的是叶子结点上占比较多的标签所占的比例，逻辑回归使用的是sigmoid函数压缩后的似然，而SVM使用的是样本点到决策边界的距离，而这些指标的本质，其实都是一种“类概率”的表示。
而朴素贝叶斯是真正的概率分类器，朴素贝叶斯是一种直接衡量标签与特征之间对的概率关系的有监督学习算法，是一种专注分类的算法。朴素贝叶斯算法根源就是基于概率论和数理统计的贝叶斯理论，因此它是根正苗红的概率模型。

连续型变量的概率估计

连续型变量每个取值的概率趋向于0，该怎么计算呢？
强行变成分区间，变成分类型，每个区间的均值Xi作为取值，其取值的概率可以通过概率密度曲线 (probability density function, PDF)下面积来计算。因此，由于区间的适当选取比较困难，我们可以不进行区间的选取，而将求解连续型变量下某个点Xi取值的概率问题，转换成求解概率密度函数在Xi上的取值的问题。因此，求解概率密度曲线即可。
现实生活中，我们假设概率密度函数是满足某种统计学分布的，最常见的就是高斯分布，即正态分布。常用的还有伯努利分布，多项式分布等。

sklearn中的朴素贝叶斯

naive_bayes.BernoulliNB，伯努利分布下的朴素贝叶斯；

naive_bayes.GaussianNB，高斯分布下的朴素贝叶斯；

通过假设P(Xi|Y)是服从高斯分布的，来估计每个特征下每个类别上的条件概率；
参数prior，表示类的先验概率，若不指定，则自行根据数据进行计算；
var_smoothing，为了追求估计的稳定性，将特征中最大的方差以某个比例添加到估计的方差中。这个比例就是var_smoothing;
高斯朴素贝叶斯的决策边界是曲线；
决策树是天生过拟合的模型，支持向量机是不调参情况下就非常接近极限的模型；朴素贝叶斯天生分类能力比较弱且潜力较弱，弱于决策树/随机森林/逻辑回归等；

import numpy as np
import matplotlib.pyplot as plt
from sklearn.naive_bayes import GaussianNB
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split

digits = load_digits()
X, y = digits.data, digits.target
Xtrain,Xtest,Ytrain,Ytest = train_test_split(X,y,test_size=0.3,random_state=2023)

gnb = GaussianNB().fit(Xtrain,Ytrain) ##求解高斯分布的参数的过程
acc_score = gnb.score(Xtest,Ytest) #分数
Y_pred = gnb.predict(Xtest) #查看预测结果
prob = gnb.predict_proba(Xtest) #查看预测的概率结果

from sklearn.metrics import confusion_matrix as CM
CM(Ytest,Y_pred) #ROC曲线不能用于多分类，多分类情况下最佳的模型评估指标是混淆矩阵和整体的准确的

naive_bayes.MultinomialNB，多项式分布下的朴素贝叶斯；
naive_bayes.ComplementNB，补充朴素贝叶斯；
linear_model.BayesianRidge，贝叶斯岭回归，在参数估计过程中使用贝叶斯回归技术来包括正则化参数；
与SVM和随机森林相比，朴素贝叶斯运算速度更快；

参考

[1] B站菜菜

朴素贝叶斯

朴素贝叶斯

相关概念

连续型变量的概率估计

sklearn中的朴素贝叶斯

参考

推荐阅读更多精彩内容