贝叶斯真有其人,但现在我们知道的更多是贝叶斯公式,或者说以贝叶斯思想为基础的贝叶斯学派。
当我们谈论一件事情的概率的时候,其实存在着两种解读的方向。一种是从频率,一种是从经验。
我们可以理解成概率就是上帝,而贝叶斯和频率则是解释上帝存在的不同宗教。
之所以这么说恰恰也证明了,这并不是普适性的规律,并且两者各有优缺点。
事实上,贝叶斯当初提出这个思想的时候就是想证明上帝的存在,不过也有人讥笑说,如果上帝能被你证明存在与否,那你不就比上帝还牛了。
我们多多少少赌过钱,如果你注意观察会发现,那些输了很多盘的人往往会觉得他下把赢的几率变大。
相反,那些赢很多的人想快快离场,因为他预感他快要输了。
假设两个人赌钱,各自赢的概率都是百分之五十。熟悉概率论的都知道,这是一个独立事件,你这次赢,和下次赢不赢关系不大。
那按照这个逻辑推导,赢钱的应该不用担心下次的输赢,输钱的明智的打算应该及时收手。
但这个想法对吗?尤其是输的人容易红眼,一红眼就想All in。
这时候频率学派的会站出来告诉你,兄弟,压住心中的愤懑之情。你脸红脖子粗的看着他说,都输这么多了,哪里能咽的下这口气。
他会跟你说,别急,我们慢慢玩,你把每次的赌博金额调小就行。
频率学派始终认为概率是事件发生频率的极限。用白话说的意思就是,现在的输赢并不是真实的概率,当你玩的足够多盘后概率才能显示出来。
如果你问他玩多少把,他会跟你说,无限盘。。。
所以在做数据分析的时候就会遇到这种问题,你通过页面上已知的数据,你计算出A比B出现的概率高。
这时候,你下结论说A比B好,那是不够的,你还得进行大量的有放回抽样测试。这样最好得出的结论才能无限的逼近真实值。
所以不懂概率和统计做出的分析质量就会比较差了,但这种计算概率的过程又很繁琐枯燥。
这时候我们就可以借用机器学习模型来实现自动化,来预测。而我们只要不断的调整参数就行,让其准确率更高。
频率学派对问题的态度就是,先有一个固定的参数,然后把所有不确定的数据输入,最后得出输出。
但他忽略了一件事,就拿赌博那件事来说,我们刚才假设的是一个静态的场景。
也就是频率学派自己给自己提供了一个确定的参数,因为确实是两个人比,只要玩的足够多盘最后一定会打平的,可如果赢很多盘的那个人是匿名赌圣呢?
他忽略了贝叶斯学派所说的经验这一重要的因素,这也正是频率学派理论的风险所在。
贝叶斯和频率学派相反,他认为,参数是随机的,数据是确定的。这一思考方式,天然的就把自己放在了怀疑论的立场。
对任何事情都抱有怀疑,只对自己看到的能被知识验证的数据相信。
贝叶斯学派的人对待这场赌博的态度一定是,叫输的人别玩了,因为已经有足够多的先验证据证明他输定了。
但贝叶斯也有缺点,就是收集的证据很多时候都很主观,并且没有这么大且高质量的证据。就好像证明上帝这件事,能找到高质量且客观的证据出来算我输。
但也正是这两种方法论把机器学习给相互补充完整了,最后以贝叶斯的公式结尾吧,看看到底能不能预测上帝的存在。
P(D/H).p(H)
P(H/D) = —————
P(D)