一. 贝叶斯定理
1. 为了解决“逆概率”问题,而提出了贝叶斯定理:在有限的已知信息下,回推出概率
2.
(1) A:要求解信息,B:已知信息
(2) 把P(A)称为"先验概率"(Prior probability),即在不知道B事件的前提下,我们对A事件概率的一个主观判断。
(3) P(B|A)/P(B)称为"可能性函数"(Likelyhood),这是一个调整因子,即新信息B带来的调整,作用是使得先验概率更接近真实概率。
(4) P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。
3. 全概率:
某件事情的发生可以由很多情况导致,那么这件事情发生的全部概率,就是每个事件导致他发生的概率,乘以每个事件发生的概率。
二. 贝叶斯分类器
1. 分类
(后验概率=先验概率×调整因子)
2. 朴素贝叶斯分类【有监督】
(1) 原理:假设每个特征 独立 地对分类结果产生影响:
∵
∴ (也叫似然概率)
朴素贝叶斯分类器即求上式的最大值,即求最大似然估计。
*拉普拉斯平滑修正:P>0,实际上假设了特征值和类别的均匀分布,分子+1,分母+类别个数
(2) 算法
① 输入:训练数据集T={}
② 计算
③输出:将上式 max P(y|x)作为x的分类结果
3. 半朴素贝叶斯分类
(1) 引入:特征之间 非独立,有依赖关系。
(2) SPODE:超父属性
假设所有属性都依赖于同一个属性(超父, super-parent),然后通过交叉验证确定超父。
(pai为超父属性)
(3) AODE:将每个元素作为超父属性建立SPODE模型,然后从中筛选较好的属性集成起来作为最终的模型。
(4) TAN:假设每个属性只依赖一个属性,但是并不是统一的超父。相反,TAN将N个属性看成一个无向完全图,然后设定每条边的权重为两条边的相关性。
建立无向完全图之后,通过最大生成树算法,挑选根变量,并将边设置为有向。建立依赖图之后,就可以和AODE中一样计算概率,只不过每个属性有自己独特的父类而已,其余皆相同。
三. 最大似然函数
1. 似然:P(x|θ)
(1) x表示某一个具体的数据;θ表示模型的参数。
(2) 若θ是已知确定的,x是变量,这个函数叫概率函数(probability function),它描述对不同的样本点x,其出现概率是多少。——已知硬币均匀,求抛硬币结果的可能性。
(3) 若x是已知确定的,θ是变量,这个函数叫似然函数(likelihood function),它描述对不同的模型参数,出现x样本点的概率是多少。——通过抛硬币结果,求硬币是否均匀(参数)。
2. 最大似然估计MLE——频率学派
(1) 定义:假设参数θ,然后计算实验结果的概率。似然函数P(x|θ)越大,那么这个假设的参数就越可能是真的。即推测参数的分布。
(2) 缺点:数据量缺乏时会产生严重偏差。——抛5次硬币均为正,认为θ=1。
(3) 推导:假设数据 X=(x1,x2,......,xn) 是i.i.d.的一组抽样
*对数似然/负对数似然:取lg将连乘变为连加,减少了计算量;不影响单调性;能将[0,1]的数据放大到图像中央。
3. 最大后验概率估计MAP——贝叶斯学派
(1) 定义:最大似然估计是使似然函数P(x|θ)最大,最大后验概率估计则是求θ使P(x|θ)·P(θ)最大。——抛5次硬币均为正,认为硬币大概率是均匀的,预估先验概率即P(θ)=0.5,认为θ在0.5~1之间。
(2) 推导:假设数据 X=(x1,x2,......,xn) 是i.i.d.的一组抽样
*贝叶斯展开后 lgP(X)可以舍去是因为与θ无关
*MLE和MAP在优化时的不同就是在于先验项 -lgP(θ),在MAP中使用一个高斯分布的先验=在MLE中采用L2的正则化
参考:
[1]详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解_nebulaf91的博客-CSDN博客_最大后验概率