为什么很多结论不可信?——样本偏差

请思考下面一些问题:

X大学设立了一个著名的音乐剧项目。该项目只为一小批具有非凡音乐潜质的高中毕业生提供奖学金。简老师是这个项目的负责人,她有一些朋友是当地高中的戏剧课老师。一天下午,她去斯普林菲尔高中考察一个学生的情况,这个孩子是由其戏剧课老师强力推荐的,据说是一个十分优秀的年轻女演员。简老师观看了一出由罗杰斯与汉默斯坦创作的音乐剧的彩排,那个女孩子在剧中担任主角。结果,她说错了好几句台词,看上去她对角色的把握也不好,表现得像是几乎没什么舞台表演经验。简老师告诉她的同事,她现在十分怀疑她的朋友的判断。这是一个明智的结论吗?

乔是Y大学橄榄球队的球探,他去美国各地的中学练习赛上观看了比赛,考察那些由教练推荐给他的有潜质的年轻人。一天下午,他也来到了斯普林菲尔高中考察一个有着出色得分记录的四分卫。这个孩子有着出众的技术统计记录,并且得到了教练的高度评价。在练习中,这个四分卫传错了几次球,还投丢了几回,总共也没得到多少分。这位球探表示这个四分卫被高估了,并且建议Y大学不再考虑将他吸纳进来。这是一个明智的建议吗?


根据一个人一次的表现就推断出这个人的整体情况,这是一种非常轻率的判断,因为这就是犯了样本偏差的统计学错误。


在一般的统计或计量经济学研究中,用于估计所研究系统的参数的数据依赖于从总体中抽取的样本。如果所抽取的样本是随机的,即以类似“抽签”的方式获得的样本,根据这些样本数据所估计的各种参数能够准确反映总体的相关特性,理论上,就是所估计的参数是无偏的和一致的。而且随着抽取的样本越大,其对事件的总体特征分布的描述越是会准确。

常见的样本偏差有两种,一种是所抽取的样本不是随机的,另一种是抽取的样本数量不够多。


一个球员自身表现的可变性,甚至是一支球队表现的可变性,就像一句老话形容的那样,在某一个星期日,美国全国橄榄球联盟中的任何一支球队都可以击败其他任何一支球队。这当然不是说所有球队的水平完全一样,这只是表明你需要一个相当大的样本量来准去评断不同球队的水平。

就如一个四分卫在一个或更多赛季的表现可以被看做评判其技术的可信依据。如果他的教练坚持认为他的确出色,那么我们有大量证据——众多技术统计数据——推断乔考察的这位球员真的特别优秀,乔自己的证据——一天中的一场比赛的表现与之相比就显得太不可信了。

同样的推断逻辑也可以应用于那位戏剧项目负责人的判断。如果有好几位了解那位女演员的人都表示她有很高的才华,那么这位负责人就要对自己的判断三思。


因为样本偏差导致的判断失误很典型的表现就是访谈错觉。

人们过度看重面试的价值,以至很容易最终事与愿违。他们认为,面试表现比平均成绩更有说服力,面试会比基于和候选人长期接触而产生的推荐信更能预测一个人的发展潜力。其实,半个小时的面试结果与一个学生在本科或研究生阶段的表现存在非常低的相关关系。

对于“面试”,我们应当明白:如果对于一个学校或一份工作的候选人来说,可以在他的申请材料中获取重要的、有价值的信息,那么最好不要再面试他了。如果你能够以面试真正具有的并不那么重要的价值来衡量它,那么就不可能真的影响你的判断。然而,我们几乎无法抑制自己要过度重视面试的倾向,因为我们对于直接观察一个人了解其能力和品性有着不切实际的自信。


样本偏差提示我们,在做出一些结论的时候,要反思下我们选取的样本是否具有随机性?是否有足够多的样本?

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容