1.贝叶斯定理的图形解释
小张同学每天去食堂吃饭时,有0.8的概率会打牛肉,并在此基础上有0.7的概率会买可乐,如果不打牛肉,只有0.2的概率会买可乐。有一天我看到他的桌上已经摆了一罐可乐(注意!这里出现了新的信息),那小张同学今天打了牛肉的概率有多大?
该事件用1×1(长度代表事件发生的概率)的正方形可以表示为:阴影部分是买可乐的所有可能情况的概率,买可乐的概率为每种情况下买可乐的概率和:
P(买可乐)= P(买可乐且打牛肉)+ P(买可乐且不打牛肉)= 0.8×0.7 + 0.2 × 0.2 = 0.6
P(打牛肉|买可乐)= P(买可乐且打牛肉)/P(买可乐)= 0.56/0.6 = 0.933
在没有新信息的情况下打牛肉的概率只有0.8,在有了新信息(买可乐)之后,该事件概率提升为0.933。所以,贝叶斯定理可以看作在有了信息的情况下对原来先验概率的一种修正。
假设事件A为打牛肉,事件B为买可乐,根据上面的分析,在买了可乐的情况下又打了牛肉的概率为:
这就是贝叶斯定理的公式形式,P(A)称作先验概率,P(A|B) 称作后验概率。
2.贝叶斯推断
下面再想一个更有趣的问题:我是如何知道小张同学打牛肉和喝可乐的概率的呢?统计小张在食堂吃过的100顿饭吗?即便我可以做到,那这个频率足够代表概率吗?
传统概率论认为,事件发生的概率是个定值,只要做足够多的实验,那么就可以用频率来代表这个概率。
贝叶斯理论认为,事件发生的概率是个分布函数而非定值(离散或者连续均可),随着实验次数和样本数量的增加(注意!与上面相同,出现了新的信息),后验分布(可看做对先验分布函数的更新)会更加接近存在新信息时原事件发生概率的真实分布。
以打牛肉为例,假设小张同学打牛肉的先验概率服从均值为0.6的正态分布,随着我观察次数的增多(新的信息,可能是在某个取值周围取得的次数比较多,该事件发生的概率密度函数被称作似然函数),该先验概率经过贝叶斯公式更新后的后验概率为均值为0.8的正态分布,于是可以把0.8作为该事件的概率估计值。同理可以得到买可乐的概率。
3. 多元正态分布与贝叶斯推断
多元正态分布(又称多元高斯分布)是由正态分布经过推广得来,其先验概率密度函数为:后验分布为均值为μ,方差为Σ的多元正态分布。在下一篇推送中,我会介绍该函数在Black Litterman 模型的应用,并给出代码实现。