概率论是全局观认知的理论
局部的随机性与整体的确定性,在不确定中,寻找确定的部分。
如果事情是个确定的事情,那好办。如果事情结果没有尘埃落定,怎么算?阿罗不可能定理说:用钞票投票才是最好的选择。而数学中的概率,就是解决这样的问题的而产生的学问。
需要注意的是全局观,也是有前置条件的。条件概率的使用本质是局势的变化,并且事情的发展并不是确定的,那么结果概率也会不断地变化。(如果你看过美国真人秀节目DealOrNoDeal,会有更直观的理解与感受。)
随机事件的结果,是不可预测的,但是全局观的结果确定无疑的。概率论可以解决随机问题的背后原理,就是把局部的随机性转变成整体上的确定性。它能让我们能对未来的随机事情,做出数学上确定性的判断。
概率论并不能预测世界下一秒会发生什么,而是为你刻画世界的整体确定性。从认知思维的角度上说,某一次结果的随机性的认知,是低层次的认知;而概率论是高层次的,确定性的认知方法论。
基本概念1: 随机
随机性与不确定性是不同的。
随机就是不可预测。我们说一个事情是随机的,指的是就它发生的结果不能被预测,但是知道或确定其所有可能的结果(或选项)组成的集合。而不确定性的概念更广泛,是说对结果或选项一无所知。举个例子,投篮的结果是随机,但结果只有两个选项:投中或投不中。今天出门会有什么事发生呢?不知道,这是不确定的。黑天鹅是不确定性事件,而灰犀牛是随机事件。
只有知道了全部可能的结果,才能分析它们的概率;不知道可能的结果,就没法深入研究。概率论知识研究的事件结果必须是选项可知的。
如果你可以通过问好的问题,就可以在限定条件下,将一个不确定问题转换成随机问题。然后,通过概率去研究这个问题。
在现实生活中,我们遇到各种问题基本上是效果随机,而不是真随机。还有就是生活中,还有大量的伪随机(结果的背后是有规律的。)。比如,石头剪刀布,高手可以观察到对手的规律性。真随机可能其存在量子层面上。
随机的力量是这个世界的决定性力量。利用随机来战胜对手的例子:打网球选手的左手,转基因作物旁边开辟一块非转基因的作物。
基本概念2: 概率
对于随机性这样一个模糊的词,如何度量所谓的随机性?如何从定性的描述到定量的描述?
术语「概率」是对随机事件发生的可能性大小的定量描述。通常,教材中使用「柯尔莫哥洛夫」的定义。
设 E 为随机试验(注意,是试验),S是它的样本空间(也就是随机试验的可能结果)。对于E的每一事件A赋予一个实数,记作为P(A),称为事件A的概率。
上面的定义比较抽象,但是请注意,数学通过严谨的数学语言来描述现实的问题,归根结底还是解决现实问题的。同时,也要注意,概率问题的描述十分重要,只有正确的描述随机事件,才能有正确的概率思路。本质上,随机事件是概率论的一种表达方式。只有符合这种表达方式,我们才能度量其概率。
其表达方式的套路如下:
对你关心的事情,设定一个条件;然后从可能性的角度出发,对其中一个可能发生的结果进行陈述,这就是随机事件描述。最后,再对其发生的可能性大小进行度量,这就是事件的概率。
其中有三个要点:
- 在事件前面一定要设定一个条件;
- 从事件发生的可能性的视角出发来描述;有两种情况:一是,过去已经发生过了,但是我不知道;二是,未来还未发生。
- 一定要对某一个发生结果的陈述。也就是样本空间的一个结果。
概率是随机事件在样本空间的比率,这个概率比较好理解。就是该事件发生的频率。日常生活中,我们会经常用频率值来代替概率值。
空间是一个比较专业的数学定义,是现代数学的基础,也是比较抽象的概念。通常它也是通过集合的方式来定义的。如果在样本空间中的事件都不可再分,我们称为基本事件。随机事件是样本空间中的一个子集。
概率的三个基本性质(简称为非负和为1):
- 概率是非负的,且在0和1之间。
- 样本空间的所有随机事件发生概率加起来为1。
- 某个随机事件不发生的概率,等于1减去这个事件的概率。
样本空间的完备性是大家容易忽视的一个问题:也就是说样本空间必须包含所有可能的结果。前面提到的黑天鹅事件是指这件事情不在样本空间中,所以才说它不是随机事件的。我们世界的认识,就是对样本空间完备性的认识。
基本概念3:独立
独立同分布是在概率学在常说的一个词。「独立」通常是指在同一样本空间中随机事件的相互关系。这个前提在概率论中十分重要。它是正确分析和度量概率的一个基石。
在同一样本空间中,随机事件之间没有关系,这些随机事件称之为独立事件。例如抛一次硬币。硬币的正反面出现的概率一定是0.5。但是有一些常见的误区。譬如连续抛6次,前5次都是正面,那么第 6 次是正面的概率是多少?很多人有一种错觉,就是第 6 次出现正面的概率会小。其实大家是混淆了随机事件的定义。
事件的定义是概率计算的基本条件。上面这个事件可以有两种不同的事件定义或是事件定义的问法。
- 如果连续抛 6 次硬币,全部都是正面的概率是多少?
- 如果连续抛 6 次硬币,前 5 次是正面,第 6 次出现正面的概率是多少?
因为每一次抛硬币都是独立的事件,所以第 2 个问题的答案是 0.5。而第1个问题的答案是 0.5 的 6 次方(非常小的浮点数)。
两个随机事件相互独立,在概率论中是指:一个随机事件的发生,不会影响另一个随机事件发生。通常这种非独立的关系,我个人认为是指一些不太明显的因果关系或是其它关系。这里的其它关系是指人们无法理解的,不太明确的,不知道的因果,譬如说,吃火锅,来一罐王老吉;穿了西装,会穿皮鞋。
现实中,识别随机事件的独立性是非常困难的。所以,在数学上,我们可以理解成独立事件是我们描述某些事件的数学模型,或是说简化了计算。但是,要注意,我们一定要仔细思考两件事情的发生是不是独立事件。
概率计算
定义问题比计算更重要。这是个研究领域的老生常谈的问题。问好的问题。
定义问题本质是定义随机事件相互关系的一个重要概念。只有弄清了随机事件的关系,我们才能正确计算它们的概率。
三个法则:
排列组合法则
排列组合法则适用于结果有限,而且每种结果都是等可能性的情况。计算方法是:概率就是这个随机事件出现的次数除以所有可能的结果的个数。其中注意,排列是有先后的顺序的。大部分的概率问题都是排列组合问题。如果不是等概率的事件,也可用这个随机事件出现的次数,除以样本的总量。加法法则
针对多个随机事件。简单的说,就是多个随机事件的概率加和。加法法则也有限定条件,就是这些随机事件不能同时发生,要「互斥」。如果不能互斥,那么使用集合的方式,将交集去除。乘法法则
针对多个随机事件,且是相互独立事件。独立事件是两个随机事件没关系;互斥事件是两个随机事件关系特别大,非此即彼。
概率问题的难度在描述随机事件,如「或」,「同时」,「有放回」,「无放回」,一字之差,结果就差之千里。
「一个随机事件发生两次的概率」与「一件事情再次发生的概率」是完全不同的。用数学表示是P(A1)*P(A2)与P(A2|A1)的表述不同。
正确的翻译现实问题,是概率计算最复杂,也最难的地方。
小结一下
就如同计算机语言中的类型一样,都是先定义是什么,在此基础上定义它的操作符。