以下内容非原创, 根据Sam Houston State University 的 Christopher Randle教授来组上交流时的材料翻译。本人翻译和学术能力有限,仅供参考。
前言:
我们在之前讲到过最大似然法进行的系统发育分析,如果能理解最大似然法,那么理解贝叶斯法就变得很简单 ,因为贝叶斯方法在很大程度上是基于最大似然法的,但二者又存在明显差异,最明显的一点就是,贝叶斯系统并不去追求最优值,而是尝试去同时估算所有假设的概率。在贝叶斯系统中,除了模型参数以外,系统发育树的拓扑结构、枝长也被当做参数进行估算。另外,参数的估算不再以点估算或者单一值的方式进行,而是估算所有参数的分布概率,也称为后验分布。
最大似然法和贝叶斯法的另一个主要区别是二者对概率的解读。最大似然法是以Ronald Fisher为代表的频率学派,认为概率是在假设无限发生的一系列事件下的一个极限值,以抛硬币为例,无限次抛硬币后,正面朝上的频率会接近50%,也就是正面朝上的概率。而对贝叶斯统计学家来说,概率侧重体现已有的认知,比如,如果一枚硬币没有造假,那我们对正面朝上的信心和反面朝上的信心是相同的。
二者的区别还体现在对先验知识的应用上。在最大似然法中,结果只依赖于似然函数,与已有认知无关。而在贝叶斯方法中,通过先验分布的形式,将先验认知结合到了假设的概率估算中。
Simple example of Bayesian thinking 理解贝叶斯思想
在说贝叶斯系统发育分析(Bayesian Phylogenetics)之前,我们先来了解一下贝叶斯思想(Bayesian thinking)。
在最大似然法一节中我们给出了抛硬币的例子:八次抛硬币,七次正面朝上,假设1(硬币为真)的似然值为3%,假设2(硬币为真)硬币为假的似然值为38%。在没有其他信息的情况下,我们很合理地认为假设2(硬币为假)更可信。
但是如果还存在其他信息呢?
如果我们事先知道,Anthony口袋里有20枚硬币,而只有一个假硬币。这时掏出假硬币的可能就是5%。这里的5%就是假设2(假硬币)的先验概率(prior probability)。如果我们把先验概率考虑进来再计算2种假设出现的概率,这就是它们的后验概率(posterior probability)。
The post probability of a hypothesis is the probability of that hypothesis, given the data and prior probability of a hypothesis.
一个假设的后验概率就是给定数据和先验概率的条件下该假设的概率。
那么后验概率如何计算呢?
第一步,我们怀着一个先验信念(prior belif):有5%的概率掏出假硬币(或有95%的概率掏出真硬币),来分别计算两个假设的前提下,发生7次正面朝上事件的概率。这个概率为先验概率和假设似然值的乘积:
假设1(真硬币):(95%)·(3%)= 2.85%
假设2(假硬币):(5%)·(38%)= 1.90%
也就是说,在已知了口袋里有19枚真硬币,1枚假硬币,2.85%的时间里我们会掏出一枚真硬币,并抛出8次中7次正面朝上,1.90%的时间里我们会掏出一枚假硬币,并抛出8次中7次正面朝上。
第二步,计算两个假设的后验概率。后验概率的计算公式为:
在本例中表达式如下:
假设1(真硬币)的后验概率:
假设2(假硬币)的后验概率:
这是,硬币是真硬f币的概率(60%)反而超过了硬币是假硬币(40%)的概率,与最大似然法的结果相反。
我们用一张图来概括一下:
The numerator is the product of the priorprobability of H and the likelihood of H, while the denominator is theprobability of observing data summed over all hypothese, sometimes called thesum of joint probability.
在后验概率的计算公式中,分子是假设H的先验概率和它的似然值的乘积,而分母是所有假设条件下所观察结果的概率的总和。
虽然贝叶斯思想在系统发育中的应用是近几年的事,但是贝叶斯思想的出现是很早的事了,早于频率论思想(frequentist thinking)的出现。Reverend Thomas Bayers(1763)的遗作为贝叶斯思想打下了基础,由Harold Jeffreys在1939年的概率论(Theory of Pobability)中用公式表达。
值得一提的是,这位Harold Jeffreys还是大陆漂移学说的强烈反对者。看来人也和硬币一样具有两面性。
下回分解
在了解了贝叶斯思想之后,再回到我们的重点:贝叶斯系统发育分析(Bayesian Phylogeny Estimation)。
在系统发育分析中应用贝叶斯方法时,会遇到两个主要问题:
1)如果先验信息缺失,怎么确定先验概率呢?
2)所有假设条件下所观察结果概率的总和(sum of joint probabilities)在现代计算机中是无法计算的,我们如何继续分析呢?
对这两个问题的解决在后面会有详细的解释,这里先给出简单的解答:
1)当先验信息缺失时,被设计出来的先验概率要反映信息的缺失,使得信息的缺失对后面估算的影响尽可能小。
2)虽然我们无法估算任何系统发育问题的贝叶斯定理,但我们可以估算参数空间(parameter space)内一个合理样本的似然值,用这个样本和先验假设来提供后验分布的估计值。