概率论只不过是把常识用数学公式表达了出来。 ——拉普拉斯
贝叶斯方法
所谓的贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。而一个自然而然的问题是反过来:“如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测”。这个问题,就是所谓的逆概问题。
实际上,贝叶斯当时的论文只是对这个问题的一个直接的求解尝试,并不清楚他当时是不是已经意识到这里面包含着的深刻的思想。然而后来,贝叶斯方法席卷了概率论,并将应用延伸到各个问题领域,所有需要作出概率预测的地方都可以见到贝叶斯方法的影子。这背后的深刻原因在于,现实世界本身就是不确定的,人类的观察能力是有局限性的,我们日常所观察到的只是事物表面上的结果,沿用刚才那个袋子里面取球的比方,我们往往只能知道从里面取出来的球是什么颜色,而并不能直接看到袋子里面实际的情况。这个时候,我们就需要提供一个猜测,所谓猜测,当然就是不确定的(很可能有好多种乃至无数种猜测都能满足目前的观测),但也绝对不是两眼一抹黑瞎蒙——具体地说,我们需要做两件事情:
- 算出各种不同猜测的可能性大小。
- 算出最靠谱的猜测是什么。
第一个就是计算特定猜测的后验概率,对于连续的猜测空间则是计算猜测的概率密度函数。第二个则是所谓的模型比较,模型比较如果不考虑先验概率的话就是最大似然方法。
贝叶斯公式
贝叶斯定理说的是,对于事件A和B,它们的概率满足:
其中其中P(A|B)是当事件B发生的条件下,事件A的条件概率;
P(B|A)是当事件A发生的条件下,事件B的条件概率;
P(A)和P(B)分别是事件A和B的先验概率,在贝叶斯概率观中,也就是我们对它们概率的一个估计。
举个例子,事件A是“明天下雨”,事件B是“今晚多云”。如果你今天晚上看到多云了,那么明天下雨的概率是多少呢?直接用贝叶斯定理的话,只需要知道每一天下雨的概率P(A),每晚多云的概率P(B),还有如果某天下雨了,那么前一晚多云的概率P(B|A),代入公式,即可求得。
如何得到这些概率呢?主观贝叶斯主义认为,一切概率都是人们根据自己拥有的信息来推断某件事情发生的可能性,这是一种主观的度量。只要把目前对于这些概率的主观估计代入贝叶斯定理,就能得到“今晚多云明天是否下雨”的一个主观概率。
贝叶斯公式中有一个重要的思想,对于未知的事情,我们是不知道它发生的概率的,但我们可以假设它发生的概率是p,这就是我们对p的一个先验概率估计。然后我们就不断的去尝试,去实验,根据实验结果我们不断的去修正对p的概率估计,而这个概率又可以作为下次的先验概率,随着我们实验次数的增多,最终我们的p值会接近真实的概率。
生活中的贝叶斯
生活中很多决策其实都可以用到贝叶斯思维,下面介绍王烁总结的贝叶斯推理模板:
无论面对什么问题,关于未来会怎样,你设定三种可能情形:上、中、下,分别对应着变好、不变、变坏。如果你有个初步判断,就相应的配给上中下相应的基数,如果你是一张白纸,没有任何的判断,就给他们相同的基数。
接下来事情本身的发展会带来新的信息,有可能倾向于上、中、下三种情形,是什么情形就在对应的基数上加分,加多少看信息的力度大小而定。例如上中下的基数是33.3,每次加分的取值范围是1-5,最强5分,最弱1分。这样无论什么事,打上一段时间分数,你就对它也有些数了,绝对比临时拍脑袋要靠谱。
贝叶斯推理有两大要求,第一要理清已有的判断,第二是诚实对待新的证据,两者缺一不可,前者是判断的出发点,后者是依据。
在使用贝叶斯工具时不要忘了它无法对抗黑天鹅,这是没有办法的事,其次不要忘了在先的判断和新的证据间并不总是独立的,如果你有先入为主的思想,那么后续的证据很有可能是自证预言。真正的贝叶斯他们会尊重先入之见,因为他是一切新知的出发点,但又随时准备清空存量,以避免掉入这一陷阱。