今天来看的就是,我们是从哪一个角度去理解频率学派。因为对于频率学派来说,当不能多次独立重复实验的时候,就不存在从频率角度来解读概率的理论基础。
所以为了解决频率主义的问题,叶斯学派给出了一种更加通用的概率定义,概率表示的是客观事件的可信程度,也可以说是主观上主体对事件的信任程度,它是建立在对事件的已有知识基础上。(所以贝叶斯概率可以大概理解为被赌博的分析)
除了对概率的置信度解释之外,贝叶斯学派中的另一个核心内容就是贝叶斯定理,要来解决逆向概率问题。
所以从图上我们可以看出贝叶斯定理同样可以从贝叶斯概率的角度加以解读,所谓先验概率,是指根据以往经验和分析,得到的概率可以视为假设H初识的可信程度,与假设h相关的数据D作为证据出现,将数据纳入考虑范围,以此来假设h的可信程度,要么被增强或者要么被削弱。,但不管增强还是削弱得到的结果,都是经过数据验证的可信程度,这就是后验概率。
所以贝叶斯定理的意义正是在于将后验概率与先验概率关联起来,刻画的数据对知识和信念的影响。
之前我们在讨论频率统计理论的时候,但核心是将估计的参数设为固定不变的常量,而用来估计的数据是随机的变量。毕业生统计是另外一个思路,是将待估计的参数是为随机变量,用来估计的数据反过来是确定的常数,讨论观测数据的概率分布是没有意义。
所以对于频率概率来说,频率概率是要去找最大似然估计,但是贝叶斯主义是在参数估计中倾向于是后验概率最大化,所以它使用的是最大后验概率估计。
从上面这个例子来看的话,完全没看出,就是抛开先验概率讨论似然概率没有多少说服力,但最难的一点是先验信息在哪里?
所以,当没有足够的先验信息时,贝叶斯主义的处理方式就是引入无信息先验,认为未知参数取到所有取值的可能性都是相等,也就是满足均匀分布。由于此实现概率是个常数,这个时间应该也被称为平坦先验,在平塘县之下最大,后验估计和最大似然估计是等效的。
所以当我们将贝叶斯定理用到机器学习之中时,完成模型预测和选择的任务就是被贝叶斯视角下的机器学习。由于贝叶斯定理大量设计各种显示变量和隐藏变量的依赖关系,通常用概率图模型来直观的描述。贝叶斯主义将未知参数视为随机变量,参数在学习之前的不确定性由先验概率描述,学习之后的不确定性则有后验概率描述,这中间不确定性的消除就是机器学习的作用。
但是贝叶斯概率仍然有两个缺陷,第1个是对未知变量的积分运算会导致极高的计算复杂度,第2个是对先验分布的设定包含一定的主观性。
所以今天我们主要学的东西就是:
第1点,贝叶斯学派认为概率是事件的可信程度或主体对事件的信任程度,而不是像频率主义学派认为的,就是单纯的一个值。
第2点,贝叶斯学派执行参数估计时,视参数为随机变量,视数据为确定取值。
第3点,贝叶斯学派主要使用最大后验概率法,让参数在先验信息和给定数据下的后验概率最大化。
第4点,贝叶斯学派对应机器学习中的概率图模型,可以在模型预测和选择中提供更加完整的信息。