看完了整个赛季的篮球联赛之后,我们会发现,某个篮球运动员的手感,在火热几场之后,接下来状态总会下降一些,而在一段低谷后,表现又会逐渐好转。
在一个较长的统计周期里,这是一种事实现象,我们把它称为“均值回归”。
这种回归效应无处不在,例如在股票市场里、在家族各代的身高上面。但很多可以说明这一效应的事件,被错误的归因于因果律。
比如高尔夫比赛中,第一天选手的平均成绩为72标准杆,A君打出了66杆的超好成绩。你怎样对A君第二天的成绩进行预测呢。
如果A君是你喜爱的选手,你可能给出的猜测是A君第二天的表现依然良好,超过平均成绩,可是在你心里,并不会期待A君仍然打出像第一天一样的超好成绩。
你会自然地认为,A君第一天表现的超级好,现在他一定很紧张,压力很大,因为想保持住卓越的表现,估计第二天表现会稍差一点。
看吧,大脑会在没有任何依据的情况下,编出了一个有理有据的故事,让事物进入到它所熟悉的因果关系上。
真相是什么呢?
我们能对A君做出的最准备预测是:他的第一天的表现不会重演。在第二天究竟表现的是好还是稍差,仅仅在于运气而已。压力可能会使一个人表现更差,但也可能更好。
我们需要了解的是,对于一个跳高运动员第一跳和第二跳的表现之间不存在因果关系。这只是一个概率问题,其中运气起了很大作用。
虽然我们都想得到一个有因果关系的解释,但事实确非如此。
说到“均值回归”现象,我们不得不提高尔顿。他除了是19世纪英国著名的学者之外,还是达尔文的表兄。是他发现并命名了回归平均值现象。
在1886年,高尔顿发表了,《在遗传的身长中向中等身长的回归》,其中涉及对连续子代的种子大小的测量,以及对子代株高和母本株高的比较。
他不仅发现了子代高度的回归现象,还揭示了,当两个测量值之间的关联不是那么完美时,也会出现这种回归。
假设我们对某小学100名儿童进行评估,来寻找儿童体重和钢琴水平的相关性时。会发现这两个变量之间竟也存在着均值回归现象。
如果知道安的体重在100名儿童中排在第10位,我们就可以推测她比平均年龄要大。如果知道娜娜的钢琴水平排在85位,我们就可以推测她应当比大多数孩子年龄小。
在这里我们引出“相关系数”的概念,指的是两个变量共有因素的相对比重。它的值在0和1之间。值越大,说明两个变量的的相关性越强。
为了便于理解,举两个例子:
1.一个物体的长度,用英制单位和用公制单位测量的结果是一样的,他们的相关系数为1;
2.一个人的身高和臂展,相关系数为0.8,身高越高通常臂展越长。
高尔顿用了几年时间,确定了相关性和回归性并非两个概念,它们只是从不同视角对同一个概念作出的阐释。
只要两个数值之间的相关度不高,就会出现回归平均值现象。这个概念的原则很简单,但却影响深远。如我们上面举的儿童身高和钢琴水平的例子。身高和钢琴水平的相关度不高,几乎让我们建立不起任何联想。但是它们之间存在着均值回归现象。有个更显而易见的,关于这个概念的社会现象是:
聪明的女人常常会嫁给不如她们聪明的男人。或者我们常说的“鲜花插在牛粪上”。即便对大多数高知分子,也会自然地用因果关系去解释这种现象。一些人会认为高智商的女性为了避免和同样高智商的男性竞争,才出此下策。或者是在择偶时,不得不做出妥协,因为高智商的男性太少了;也许还有其他牵强的解释。而真相是:夫妻二人智商之间的相关性并不是绝对的。
真相通常正确,听起来却很无聊。如果有律师朋友恰好听到了本篇,试图把回归的概念用在民事审判的抗辩中,我想当你向法官解释“回归“现象时,你多半会输掉官司。
我们的思维,常会对因果关系的解释,带有很强的偏好,而且不善于处理统计数据。当人们把注意力集中在某一事件上时,相关的记忆就开始探寻其原因,一旦发现有回归效应时,因果关系解释就会被激活。
可事实上用因果关系解释回归现象都是不对的,均值回归虽然可以用来解释现象,却无法找出其中原因。
可恨的是,那些能够为回归现象,提供巧妙的因果解释的人,往往会赚的盆满钵满。因为他们太会利用我们思维的缺陷,来投其所好了。
如果一个作家写了几篇日记,火了一把。她声称“我写的日记火了,是因为他们都没写真话而已“,尽管她说的没错,但也很有可能被媒体讨伐。
我一下子同情起来,为什么高尔顿会绞尽脑汁地向社会解释回归的概念,为什么回归现象是在万有引力理论出现两百年后,才为人们所知。
它真的太稀松平常了,像我们呼吸的空气一样,让人们无感。即便我们现在都知道了均值回归概念,但大脑理解起来依然存在困难。我们的大脑常常抑制不住地对事物进行因果解释。
对回归效应作出错误的因果解释,不仅仅发生在普通人身上,一些杰出学者,也犯过同样错误。所以需要我们小心提防,这种毫无缘由的因果推论,形成的陷阱。