之前看过一些贝叶斯的论文后,发现很多细节不理解,对贝叶斯在各个领域的应用也不清楚,便想着找本偏科普的书来看看,于是开始阅读贝叶斯思维(Think Bayes)这本书。很薄的一本。
条件概率(Conditional Probability)
贝叶斯的基本理论都是源于条件概率模型,作者用一个很有意思的例子来解释了条件概率。注意:不是抓球那种老掉牙的例子。
作者希望知道自己得FCA的概率(某种心脏病,具体病名叫First Coronary Attack),根据已有的统计报告,美国每年大概有785000人次患FCA。因为美国的人口是3.11亿,因此可以得出一个美国人患上FCA的概率是0.00785/3.11=0.25%。但作者觉得这种算法不够准确,因为他并不是一个随机抽取的美国人,平均值并不能代表他的值,某个具体人患上FCA的概率需要考虑很多其他因素,例如年龄,性别等。
作者男性,45岁,这些因素增加了他患FCA的概率;而他是低血压却减低了他患FCA的概率。综合这些因素,作者算出他下年患上FCA的概率是0.2%,低于平均值。而这种考虑多种因素后算出的概率被称为条件概率。而条件概率的定义就是大家所熟知的p(A|B):B发生的时候,发生A的概率。结合作者的例子来解释就是:A代表作者患上FCA的概率,B是作者列出的影响因素的集合(年龄,性别,血压等)。
联合概率(Conjoint Probability)
联合概率用来描述两个事件A和B同时发生的概率,记做p(A and B)=p(A)p(B)。用抛硬币来举例,第一次抛硬币正面朝上的概率记做p(A),第二次抛硬币正面朝上的概率记做p(B),那么两次都朝上的概率是p(A)p(B)=0.25。需要注意的是,p(A and B)=p(A)p(B)并不是什么时候都成立,要求事件A和B要彼此独立,也就是p(B|A)=p(B),直白点的解释就是B发生的概率与A发生与否没有关系。抛硬币的事件就满足这个条件。
再举一个事件不相互独立的例子。假设A代表今天下雨,B代表明天下雨。通常,如果今天下雨,明天下雨的概率会比较大,因此可以得出p(B|A)>p(B)。因此呢,p(A and B)写成p(A)p(B|A)会比较准确。
综上所述,联合概率的公式可以写成:p(A and B)=p(A)p(B|A)