概率初步 Introduction to Probability

概率是对一个被研究对象是否发生的可能性的一个数字度量。

在概率研究中,通过一系列活动取得随机变量的结果的过程称为试验 Experiment,试验的每一个可能结果称为样本点 Sample point,试验的所有可能的结果的集合称为样本空间 Sample space。这里需要注意的是每一次试验观察的对象可以是一个随机变量,也可以是多个随机变量,即一个样本点中可以包含多个不同的随机变量。在此基础上,还可以将具有某些共同特性的多个样本点归集到一起形成一个集合,称为一个事件 event。

计数法则 Counting rule,组合 Combination,排列 Permutations

为了确定样本空间中所包含的元素个数,需要用到上述标题中所提到的三个方面的知识。

计数法则

如果一个实验可以分 k 个步骤进行,每一步有 ni 个可能性,那么这个实验结果的总数为 n1n2...nk,对于这种分步试验,在统计可能的结果的时可以采用分步列表和树状图来辅助完成。

Stepwise table
Tree diagram

组合和排列

当我们从一个数据集 n 中一次性抽取 k 个样本(k ≤ n),并将这个小的样本组的内容作为实验的结果,或称一个事件时,就涉及到组合和排列问题:

当 k 个样本组的结果对顺序没有要求的时候,称为组合问题,此时这个抽样结果的取值的计算公式为:

  • Cnk = n! / [k!(n - k)!]

当结果对于这 k 个抽样的顺序有要求的时候,称为排列问题,这个抽样结果的取值计算公式为:

  • Pnk = n! / (n - k)!

排列与组合的结果的差异就在于这个 k 个元素之间的 k! 个顺序是否需要考量。

概率分配 Assigning Probabilities

在确定了抽样结果的所有可能取值以后,就需要考察各个取值结果的概率分配。

  • 所谓的古典概型就是指样本空间中各个结果的概率是相等的,也就是说如果有 n 个可能的结果,那么取得每一个结果的概率为 1 / n

  • 相对频数法:在大量重复试验后统计出各个结果出现的频数,每一个结果在全部实验中出现的频率就近似等于取得相应结果的概率

  • 事件的概率:由于事件包含了多个样本点,如上图中所有项目周期为 9 个月的样本点的集合为一个事件,因此事件的概率等于其中所包含的全部样本点的概率的总和。

集合的交集 Intersection,并集 Union,补集 Complement

  • 补集:由事件的定义可知其本质是一个集合,如果将事件记做 A,那么其余所有不在 A 中的样本点则构成另一个集合,称为 A 的补集,记做 Ac,且有 P(A) + P(Ac) = 1

  • 交集:既在集合 A 中又在集合 B 中的样本点的集合,记做 A ∩ B

  • 并集:包含所有事件 A 和 事件 B 中的样本点的集合,记作 A ∪ B, 由于集合中的元素是唯一的,因此在构造并集的时候,需要对 A 和 B 交集中的元素进行一次去重,因此 P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

互斥事件 Mutually exclusive

对于两个随机事件 A 和 B 来说,如果 A 发生的同时 B 不能发生,或者当 B 发生的同时 A 也不能发生,那么也就意味着 A ∩ B = 0,即二者没有共同的样本点,此时称 A 和 B为互斥事件。

条件概率 Conditional Probability

在很多情况下,由于不同的事件的定义是对被研究对象的不同角度的一个观测,因此定义在同一个样本集上的事件之间很可能彼此是有交叉的,即由于包含相同的样本点,一个事件的发生会对另外一个事件是否发生产生影响。此时,如果我们已知一个事件 A 发生的概率,但我们又获知事件 B 已经发生了,那么我们很可能可以利用这个新的信息进一步更新事件 A 发生的概率,更精确的描述 A 发生的概率,这个新的概率称为条件概率,记做 P(A | B),其计算公式为:

  • P(A | B) = P(A ∩ B) / P(B)

直观的理解条件概率的公式就是如果在事件 B 已经发生的前提下,如果也想要观测到事件 A 发生,那么唯一可能就是造成事件 B 发生的样本点落在 A ∩ B 这一部分,那么这个交集部分在事件 B 中所占的比例就是在事件 B 已经发生的前提下事件 A 发生的概率。

Conditional probability

在计算条件概率的时候,最重要的工作就是合理的定义事件,在此基础上可以将事件及其概率用表格清晰的展示出来,如下表所示:

Joint probability

这种可以记录多个事件及其相应概率的表格称为联合概率分布表,表格的交叉项记录的是两个事件交集的概率,被称为联合概率 joint probability,表格的边缘为单独一个事件的概率,由于被放在边缘位置,因此称为边缘概率 marginal probability。

在条件概率的基础上则有:

P(A ∩ B) = P(B)P(A | B) = P(A)P(B | A)

相互独立

如果 P(A | B) = P(A) 或者 P(B | A) = P(B),也即事件 A 或 事件 B 发生的概率对彼此没有影响,则称事件 A 和事件 B 相互独立,此时:

P(A ∩ B) = P(B)P(A | B) = P(A)P(B | A) = P(A)P(B)

需要注意的是,相互独立并不意味着没有交集,只是二者对于彼此发生的概率没有影响。并且如果两个事件互斥,则意味着一个事件发生的前提下,另一个事件发生的概率为 0,因此二者不是相互独立的。

贝叶斯原理 Bayes theorem

在实际应用中,我们一般会先通过分析历史数据或主观经验推断大致的得到事件 A 发生的概率 P(A),这个概率在条件概率的语境中被称为先验概率 Prior probability,而后随着研究的深入,可能会进一步获知其他相关事件 B 已经发生,此时,我们就可以根据条件概率更新事件 A 同时也发生的概率,即 P(A | B),这个新的概率值被称为后验概率 Posterior probability。

Probability revision using Bayes's theorem

例如,假设一家工厂的某个零件来源于两个供应商 A1 和 A2,且 P(A1) = 0.65,P(A2) = 0.35。既往的质量检测发现两个供应商的良品 G 和不良品 B 的概率分别为:

  • P(G | A1) = 0.98,P(B | A1) = 0.02

  • P(G | A2) = 0.95,P(B | A2) = 0.05

此时如果后续生产由于不良品而导致停机时,这个不良品来自于 A1 和 A2 的概率分别是多少?

为了便于分析这个问题,我们可以采用绘制分步树状图的方式:

  • 第一步根据所涉及的事件,分析事件定义,并绘制事件的分步树状图
How each event is defined is critical
  • 第二步列出事件 A1 和 A2 的先验概率 P(A1),P(A2)

  • 第三步列出在 A1 和 A2 已发生基础上的条件概率,并进一步计算相关事件的联合概率:

Tree diagram with prior and joint probabilities

第四步计算出新增信息,在本例中指不良品率的概率:

  • P(B) = P(A1 ∩ B) + P(A2 ∩ B) = P(A1)P(B | A1) + P(A2)P(B | A2)

第五步计算在不良品已经被检出的情况下,其来自 A1 和 A2 的概率,即:

  • P(A1 | B) = P(A1 ∩ B) / P(B) = P(A1)P(B | A1) / [P(A1)P(B | A1) + P(A2)P(B | A2)]

  • P(A2 | B) = P(A2 ∩ B) / P(B) = P(A2)P(B | A2) / [P(A1)P(B | A1) + P(A2)P(B | A2)]

Bayes' theorem with two-event case

条件概率最早由贝叶斯提出,因此相关理论也被称为贝叶斯原理,其在需要计算后验概率的事件彼此互斥且并集是样本空间的总体的情况下都适用。上述条件可以简记做 MECE,即 Mutually exclusive, collectively exhaustive。上例中供应商只有 A1 和 A2 两家,彼此互斥且二者的并集就是供应商样本空间的总体。

当存在 n 个满足这两个条件的事件 A1,A2 ... An时,当先验概率 P(A1),P(A2) ... P(An) 和对应的条件概率 P(B | A1),P(B | A2) ... P(B | An) 已知,则可以在求的联合概率后计算 P(B),上述事件 A1,A2 ... An 的后验概率可以进一步在 P(B) 的基础上依据贝叶斯原理更新为后验概率:

Bayes' theorem for n mutually exclusive and collectively exhaustive events

除了树状图外还可以使用列表的方式做相应的计算:

Tabular approach is just like tree diagram but less visual

免责声明

我写这个笔记是为了系统的复习概率论中的一些概念,阅读的是 Statistics for Business and Economics, 12th Edition 英文原版,这是一本非常经典的参考书,毫无保留的满分推荐。尽管书名暗示了是在商业和经济学中的统计学,但根本的统计学知识是不变量,并且和很多优秀的原版书一样,作者时刻注意用实例来讲解统计学概念,基本上每一个新的概念的定义都建立在日常生活的实例的基础上,在此基础上还保留了精美的排版和精心设计的插图,十分便于理解。

笔记最重要的一个目的就是记录者复习的重要资料,如果能对别人也有所帮助那就是额外的奖赏了,所以为了复习方便我擅自截取了书中的很多插图,这些插图仅限于个人学习使用。其他人请勿直接转载,如转载请删除插图并附带这则免责声明,否则由此而产生的版权问题,请转载者自行承担。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容

  • 这一节是讲解关于机器学习中的概率的。 概率是基于统计的机器学习中最重要的基础知识。由于从零开始讲解概率是有点不现实...
    小猪刚刚1993阅读 894评论 1 2
  • 11月23日夜,早睡,做一梦,24日凌晨醒,尤清晰梗概,不明就里。晚,特记之。 三人,各背行囊,于山脚下汇合,一长...
    雨霁清风阅读 348评论 0 1