贝叶斯理论如下:
如果我们要计算在Y的条件下,x1x2x3...xd发生的概率,即计算P(x1x2x3..xd|Y)的时候,我们假x1x2x3...xd互相为条件独立(conditionally independent),这就是天真(naive)贝叶斯分类的由来。具体可以参照链式法则(chain rule),其推导如下:
因为x1x2x3...xd互为条件独立(conditionally independent),所以我们在计算P(X1|X2X3...XdY)的时候,可以依次将X2X3...Xd去掉。若有疑惑,请参考下列推导:
在第一个等式中,P(X1X2Y)=P(X1|X2Y)P(X2|Y),这是因为我们将X2Y作为一个整体,根据条件概率的公式得出的,接下来,由于X1X2相互独立,所以我们可以得出P(X1|X2Y)=P(X1|Y)的结论,因为条件独立,所以x1x2的发生没有任何联系。请记住条件独立这个前提,这是我们在做贝叶斯分类的前提条件。
接下来我们回归主题,根据下列表格,在X=(Refund=NO, Divorced, Income = 120K)的情况下,对数据进行分类,判断Evade为Yes or No。根据Naive Bayes Classifier, 我们假设Refund, Martial Status, Taxable相互条件独立,因此可以分别出计算出他们的概率。如图所示:
由上图可知,P(X|Yes)=1*1/3*0=0 vs P(X|No)=4/7 * 1/7 * 1/7 = 4/343
因为后者大于前者,因此我们可以认为在给出X这个attribute后,我们预测Evade为No的概率是高于Yes的,因此我们有理由推测这个class为No。接下来我们对P(X|Yes)这个概率进行分析,其概率值为0,我们注意到,在应用naive Bayes 计算的时候,P(income=120k|Yes)=0, 因此我们可以认为,income在整个概率估计中(prediction)中起到了主导作用,但是它的值是真的为0吗。我们可以注意到,观察整个列表,样本数量为10,当我们将样本数量升至1000,10000后,P(income=120k|Yes)可能为一个很小很小的数,但并不等于零。因此我们引入了高斯分布(正态分布)——一个常用的概率分布模型来模拟计算其概率。具体步骤如下:
因此我们可以计算样本的均值sample mean = 110 (注意是evade=No),样本方差为2975,所以可写出下列计算:
因此,我们可以看到P(income=120k|Yes)并不是等于0,而是一个接近于零的很小很小的数。因此,在计算小样本容量的时候,我们可以利用高斯分布来模拟算出相应的概率,其目的是得出一个更为精确的概率。