贝叶斯公式
朴素贝叶斯
朴素贝叶斯的一个重要假设是:属性是相互独立的。这是一个强硬的假设,但实际情况下,这项技术对于绝大部分的复杂问题仍然非常有效。
假设我们想求在A1、A2、A3属性下的,Cj的概率,用条件概率表示就是P(Cj|A1A2A3)。由贝叶斯公式可以得出:
在上面公式中,P(A1A2A3)都是固定的,所以求P(Cj|A1A2A3)等价于求P(A1A2A3|Cj)P(Cj) 最大值。
因为Ai之间是相互独立的,P(A1A2A3|Cj)=P(A1|Cj)P(A2|Cj)P(A3|Cj)
朴素贝叶斯分类器工作流程
第一阶段:准备阶段
确定特征属性,并对每个特征属性进行适当划分,然后人工对一部分数据进行分类,形成训练样本。这一阶段是唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。
第二阶段:训练阶段
这个阶段就是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率。
输入是特征属性和训练样本,输出是分类器。
第三阶段:应用阶段
这个阶段是使用分类器对新数据进行分类。输入是分类器和新数据,输出是新数据的分类结果。
sklearn中的朴素贝叶斯分类器
sklearn中提供了3个朴素贝叶斯分类算法:
高斯朴素贝叶斯:
特征变量是连续变量,符合高斯分布,比如人的身高,物体的长度。
多项式朴素贝叶斯:
特征变量是离散变量,符合多项分布,在文档分类中特征变量体现在一个单词出现的次数,或者是单词的TF-IDF值等。
伯努利朴素贝叶斯:
特征变量是布尔变量,符合0/1分布,在文档分类中特征是单词是否出现。
在多项式朴素贝叶斯中提到的TF-IDF是一个统计方法,用来评估某个词语对于一个文件集或文档库中的其中一份文件的重要程度。
TF(Term Frequency)代表词频,计算了一个单词在文档中出现的次数。
IDF(Inverse Document Frequency)是逆向文档率,是指一个单词在文档中的区分度,它认为一个单词出现在的文档数越少,就越能通过这个单词把该文档和其它文档区分开。
TF-IDF实际为TF和IDF的乘积,即TF-IDF=TF*IDF