在很多教材中,概率论与数理统计都是写在一起的。这是为了快速让读者进入概率统计的世界。然而对于真正有志于概率统计研究的人来说,这是一种非常不负责任的做法。二者截然不同的逻辑使得很多初学者将概率论中的概念与统计学中的概念搞混。
1、概率论——没有真正不确定性
我们很多人认为概率论是研究不确定性的科学,但事实上概率论中没有真正的不确定性。研究不确定性是统计学做的事情。就拿我们所熟知的随机变量X来说,很多初学者认为X是一个可以取很多值的数,取有些数的概率高,有些数的概率低。这么理解对不对呢?在统计上是可以的,但在概率论里就有失偏颇了。
在概率论中,随机变量X其实是一个映射,一个事件空间Ω到R上的映射,也就是说它实际上是一个函数。如果把它写全就是X(ω),ω∈Ω。你会觉得f(x)有不确定性吗?为什么我们会感觉随机变量有不确定性呢?因为它有一个分布。这个分布实际上是继承了原事件空间上的概率。到目前为止,我们已经将随机变量的“不确定性”归结为事件空间上的“不确定性”。我们继续来看事件空间上的不确定性是怎么一回事。
比如我们投硬币,一般认为正面概率为0.5,背面概率为0.5。我们投2次硬币,便有4种可能情况:{正,正}、{正、反}、{反,正}、{反,反}。我们不知道哪种情况会发生,所以我们认为这个事件有不确定性。然而,在概率论中,我们不考虑哪种情况会发生,我们想的是,4个事件已经在那里了,只不过每个事件自带0.25的“概率测度”。就像打dota时有很多英雄,每个英雄带有不同属性一样,你会认为有不确定性吗?
2、统计学——逆概率的应用
如果说概率论没有任何不确定性,那么在统计学中你则永远无法知道真相。
还是举投掷硬币的例子,你投了100次,发现硬币100次全是反面,于是你估计反面概率100%,但是也许反面概率只有99.999%或者99.998%呢?也许你就是个倒霉蛋,反面概率只有1%,但偏偏这100次都让你碰上了。
如果你仅仅拥有数据,你永远无法无法确切地知道事情的真相。如果说概率论给了你一个没有不确定性的框架让你产生数据,那么统计就是让你拿着这些数据去反推框架。从本质推现象与从现象推本质,二者的难度截然不同,就像放屁容易,但放出的屁再收回去就难了。统计学做的就是(此处省略6字)。
总结:概率论与统计学是两门截然不同的科学。前者属于数学,没有任何不确定性,而后者是所有不确定性科学的基础。