1.贝叶斯分类器
1.1贝叶斯定理
后验定理:后验概率 = (相似度 * 先验概率)/标淮化常量
将B看作新的样本的特征,A看作样本的可能结果(可能存在的类别),公式的意义就是B条件下出现A情况的概率。
贝叶斯的思想:从频率推测概率是一种正向思维,讲的是客观概率,而贝叶斯是一种主观判断,是根据已有条件推测事件发生的可能,表明了我们对于某一事件的相信程度。
1.2贝叶斯决策论
假设有N种可能类别的标记,即,是将一个真实标记为的样本误分类为所产生的损失,基于后验可获得将样本分类为所产生的期望损失(),即在样本上的"条件风险"()
即任务变为寻找一个判定准则以最小化整体风险
对于每个样本如果能最小化条件风险,则总体风险也将被最小化
为贝叶斯最优分类器,与之对应的总体风险为贝叶斯风险
决策步骤:
第一, 理清因果链条,哪个是假设,哪个是证据。
第二,给出所有可能假设,即假设空间
第三,给出先验概率
第四,根据贝叶斯概率公式求解后验概率,得到假设空间的后验概率分布
第五,利用后验概率求解条件期望, 得到条件期望最大值对应的行为
当我们假设证据都是互相独立的,那么此时为朴素贝叶斯。
即属性条件独立型假设。
d为属性数目,为在第个属性上的取值。
奥卡姆剃刀:当两个假说具有完全相同的解释力和预测力时,我们以那个较为简单的假说作为讨论依据。