如果你收到一条股票投资公司的广告短信,预测一只股票明天会上涨。即使股票如期上涨,你可能会觉得股票公司不过是撞彩,你上你也行。不过,当连续五天收到的短信都正确预测了股票的走势,你可能会动摇你的想法。如果连续十天、十五天收到正确预测股市的短信,你可能会对这家股票投资公司感兴趣,并考虑购买它的服务。
假如你懂得一些概率学知识,你会发现这只是一个小把戏。假设该公司想通过连续十天每天发送正确预测股票走势的推广短信来吸引一位潜在的客户,它只需选取1024位客户的电话号码,向其中512位客户发上涨的信息,另外512位发下跌。第二天再从预测正确的客户中,一半发上涨,另一半发下跌的信息。这样下来,连续十天收到预测正确信息的客户必有一位,而只需增加群发短信的范围,该公司就能对多个用户达到神预测的效果。
这是该书一个有趣的例子,(该书作者实在幽默,这是我看到的第一本引人发笑的科普书)向我们揭示了概率学之神奇。
作者是个标题党,虽说书名是“某某心理学”,但通篇没提心理学的具体知识,而是借心理学作跳板,阐述科学研究的原则,是一本很不错的了解科研原则的入门书。
在笔者看来,本书从概率和数据的角度解读出了一个奇妙世界。
基于数据作出的神预测
本书作者的同事曾做过一个小研究——根据不同敲门节奏来预测敲门者的信息。当同事在本书作者面前展示他的研究成果时,第一次试验时成功预测到敲门者是女的。作者一脸鄙夷:“切~~,50%的概率,我上我也行。”同事看作者不服,又继续作出预测。第二次成功预测敲门者是22岁以下的男性。虽说如此,作者依旧认为同事不过是碰巧。第三次同事直接预测敲门者“是一名女性,30岁,1.57米,左手拿着一本书和钱包,右手敲门。”开门一看,全中。作者一脸懵逼,这么6……
以上趣事关乎相关关系和数据采集。同事把不同敲门节奏和不同类型的人建立起相关。相关关系分为直接相关和间接相关。直接相关意为两变量之间有着直接的因果关系,间接相关意为两变量之间有其它变量作纽带传递相关关系(注:该变量称为第三变量,因为第三变量可能由多个变量影响,故间接相关关系相对无直接相关可靠。)。在此事中,同事建立的相关关系多为间接相关(其间可能略去长长的相关链)。还有一个有趣的例子,台湾的一些社会学家和医学工作者曾做过大规模调查——哪些因素与人们是否使用避孕方法有关。结果研究发现,与之相关最高的变量竟是“家中拥有家用电器的数量“。(任何一个决策者都不会想通过免费发放烤面包机给高中生以解决青少年怀孕问题。)该例子的相关是一个很明显的间接相关。两变量之间虽然不存在因果关系,但基于大量的数据采集,我们却可根据此相关作出有一定可靠性的预测,认为家用电器多的家庭更倾向于使用避孕方法。
现实生活中的相关关系复杂,特别是因果相关,更是难发现(参照科学史上因果相关的规律的发现,无不经过漫长曲折的探索)。但基于大量数据采集而发现间接相关,难度则相对较低。现实生活中有诸多可能的相关,若我们拥有作者同事那样的数据采集能力,作出那位同事的各种神预测也并非痴人说梦。
说白了,生活处处皆科学,科学的发现是建立在大量数据的基础上(该书介绍了建立一个为世人承认的科学定律的完整过程,科学发现是很严谨的)。而在我们生活中,若我们具备强大的数据采集处理能力,我们亦可创造自己的定律(当然有多严谨,多普适是另一会事,但数据足够大足够随机,那基于该定律的预测准确率也越高)。
另外作者与同事的轶事还告诉我们,要辨别某人做出的预测是有真材实料还是只是运用了概率学的小把戏,我们只需让预测者提供更具体细致的信息。比如开头例子,可以让股票公司提供涨幅预测,或者让它一次性预测几天的走势,这样就增加了随机预测出正确结果的难度,仅依靠上面把戏作出正确预测,难度将几何级数地增加。如果事件可能出现的情况不多,那么我们就要小心对这种事件做出预测的人是不是用了一些小把戏。在上面股票公司的例子中,股票一天只有上涨和下跌两种可能,那么股票公司很可能使用了一些小把戏。
(以上为数据部分,本文还将有概率部分,心力交瘁,有空再更。)
[文] CatchWind [校订] lightyears