最近一年多来,每当处于美国议息会议前夜,美国即将公布的非农就业数据就备受关注,我们以为这个数据是经济学家的事情;你我都做个几个心理测试,例如几个问题下来,将你初步划分为绿色、红色或黄色型人格的性格测试,我们以为这个测试都是心理学家的事情;在报纸上,经常看到一些社会数据公布,例如男女比例、离婚率等,我们以为这些都是社会学家的事情。
其实以上3个问题的答案,都大可商榷。的确,这3个问题可分别划分为经济学、心理学及社会学的范畴,但它们又同时运用了统计学的知识。我们身边,从不会出现独立的统计学数据,统计学总是与各种学科结合,让我们通过大数据洞悉具体领域的情况。
美国统计学家戴维·萨尔斯伯格,所写的《女士品茶》一书,讲述的恰是你我这些非科班学生感到陌生的统计学的故事。一位女士品茶的事件引申出一个问题——如何科学地设计实验,才能获得证明该女士品尝茶能力的数据?
正是由这些实验设计开始,统计学逐渐独立于数学、数据,成为一种处理问题的科学方法,并渗透到生物学、医学、心理学、社会学、计算机学等所有需要整理、描述、分析数据的学科。它的重要性不言而喻。
几个重要的统计学概念
1、实验设计
“尽管科学的发展来自仔细的思考、观察和实验,但从来没有人能说清应当如何做实验,而且人们通常不会把完整的实验结果告诉读者。”
费希尔通过女士品茶这个实验衍生开来,写下《实验设计》一书。他的结论是科学家在实验之前需要为实验结果建立数学模型。数学模型指的是一组等式,其中一些符号代表实验中收集的数据,另一些符号代表实验的总计结果。科学家需要根据实验的数据,计算出相应的合理结果。
在最初,统计学是用来指导科学、合理地设计实验的。
2、相关与回归
“均值回归”这个现象,相信你我都不会陌生。例如如果父亲非常高,孩子往往比父亲矮;如果父亲很矮,孩子往往比父亲高。似乎有一股神秘的力量让人类身高远离极端,朝着所有人的平均值靠拢,维持了人类物种的平稳?
英国科学家高尔顿发现了对这种关系的一种数学度量(我只能惊叹,这都能找到!),称之为“相关系数”。他给出了一个具体的公式,可以测量均值回归现象的一个参数,虽然这个参数不能告诉我们回归现象背后的原因。“相关”这个词便是首先出现在这,然后慢慢融入了大众语言。在统计学里,“相关”是有特指意义的,生活中你误用了吗?
3、概率
在数学书上第一次接触概率时,经常会举的一个例子是如果你无限次抛掷一枚硬币,那么得到正面与反面的概率都是无限接近与50%。一个事件的概率,是指长期来看该事件发生次数的占比。
上述重要的概率定理称为大数定律,即如果某一事件拥有固定概率,如果我们不断进行相同试验,该事件发生的比例约来越接近于该概率。
4、引申一个有趣的概念:个人概率
以上是统计学中的“概率”概念,而我们在生活中,通常是用“概率”描述我们对不确定性的感知。例如看着窗外的一团乌云,我觉得50%会下雨,而同事可能觉得80%会下雨。
我们得出不同的概念与我们以往的经验有关,我的经验是,以往出现类似乌云时,只有一半几率是下雨的。而我同事以往看到相似乌云时,大部分情况都真的下雨了。所以,我们看到相同的一片云,但得出了完全不同的概率。
于是,在我犹豫着下班要不要带伞时,我的同事已坚定地带着伞走出办公室门了。看,指导我们行为的不是客观概率,是个人概率哦。
以上,只是列举了一些我们经常接触又比较容易理解的概念,《女士品茶》里还有许多重要的统计学故事及它如何影响了其他学科的发展,我在此就不班门弄斧了,留待对统计学感兴趣的你逐一去发掘。
看完全书后,我的一个想法是,统计学其实也不像一门独立的学科,而更接近于一种方法论,而且是应用性非常强的方法。这个问题,留待科班学生替我解答了~~