最近一段时间主要精力在朴素贝叶斯的学习上,现在总结一下。
有关贝叶斯的历史,这里先不写了,有时间我会补充进去,听过他的个人故事觉得还是蛮有意思,牛逼的人生活多多少少都会有遗憾,贝叶斯就是这样,有时间我会补充进去。
-
基础理解
贝叶斯方法有很多分类,朴素贝叶斯是最简单的应该说,还有什么多项式贝叶斯,高斯贝叶斯,等等吧。这些我会陆续描述到,但是我目前的进阶还是无法深入的吃透这些算法,当搬运工也只是浪费时间而已,但是只要我有新的理解,我都会补充进去。
朴素贝叶斯方法,native bayes method。贝叶斯方法是一种分类算法。通俗的说,通过已知的数据样本,来预测未知数据的属性。
分类器里,我目前接触到的有SVM,感知机分类,接下来就是朴素贝叶斯分布了。
贝叶斯有一个最为知名的公式。
他的牛逼之处在于,解决了一些古典统计概率所不能解决的问题。传统意义的统计我们是说,有多少事件A同时有多少事件B发生,我们计算一个频数,当数据样本一定大的时候,我们就称之为概率。但是,这种算法很有局限性,比如说,明天下雨的概率是30%,一个人的心脏病的概率是40%,某地发生地震的概率是5%,当遇到这种情况时,我们传统的统计学就遇到了瓶颈。古典统计学没法对此解释,难道真的是某地100次机会里地震了5次?同理,抛硬币,我们抛了三次,三次都是正面,我们就认为正面的概率是100%?所以,这也是古典统计学的弊端。
古典统计结果的准确性过于依赖数据样本的大小。而贝叶斯的牛逼在于,当数据样本不大时,可以通过引入经验概率作为先验概率,从而反向计算后验概率。假使结果已成为既定事实,那么造成原因什么,这就是贝叶斯在做的。
-
一些概念
朴素贝叶斯的假设:条件相互独立。条件独立假设就是:
先验概率&后验概率:
假如某一个不确定事件发生的主观概率因为某一个新的情况发生的改变,那么改变前的就称为先验概率,改变后的就称为后验概率。
比如:医院里有病人检查,历史上,癌症确诊病人被诊断为阳性的概率是90%,非癌症患者被诊断为阳性的概率为10%,现在有一个病人被诊断为阳性,那么他是不是癌症?
如果放到不信任科学的人这里,那这个病人八九不离十是癌症了,如果按照我们传统意义的统计学来说,我们就要去调查,有多少病人是确诊的阳性,有多少确诊阳性的病人是癌症患者,而统计出来的频数换来的概率如果样本太少,在大数定律面前,可信度又被否认。
在这里我们用贝叶斯理论进行评估,我们了解到单纯癌症患者的概率是在1%,也就是医院里有100个病人,估计就1名患者是癌症。这个在贝叶斯的计算里,我们称为“先验概率”,也就是我们在对应具体情况前的一种主观意识。通过贝叶斯计算出来的结果,我们叫做“后验概率”,是针对具体情况的具体预测。我们通过贝叶斯理论计算出来,该阳性患者是癌症的概率为0.084,该阳性患者不是癌症的概率是0.917,根据后验概率最大化思想,非癌症的概率大于癌症概率,因此,这位病人不是癌症患者。
似然函数
说到似然函数需要区分一个概念,概率函数。
概率函数:就是不确定样本的情况下,我们知道某某事件发生的概率。
似然函数:不清楚某某事件发生的概率,只知道样本数,这时候我们得到一个函数关系。
我们假设\theta为单个事件发生的概率,\x为样本数,
那么,概率函数P=f(x),是一个有关x的概率分布,而似然函数就是P=f(theta),是一个有关theta的概率分布。
在似然函数中,我们可以很容易找到,函数的极值,也就是极大似然定理。
具体参考:https://blog.csdn.net/zengxiantao1994/article/details/72787849
-
案例
我们常见的贝叶斯公式:
这里,P(w):先验概率,P(w|x):后验概率,P(x|w):类条件概率
但是,实际问题中,我们获得的数据样本可能只有有限数目的样本数据,而先验概率和类条件概率都是未知的。根据仅有的样本数据进行分类时,我们一般需要先对先验概率和类条件概率进行估计,然后再套用贝叶斯分类器。
- 先验概率的估计
(1) 每个样本的自然状态是已知的(有监督学习,样本标签已知);
(2)依靠经验
(3) 用训练样本的各类频率估计 - 类条件概率的估计
把概率密度估计问题转化为参数估计问题,选择概率密度函数,通过极大似然估计方法。
这篇主要概念,接下来会陆续把理论用于实际项目中,方便理解