《噪声》5:为什么流程比人强
1.临床判断明显不如机械预测,而复杂的机械预测往往并不比简单的机械预测好多少。
2.“想太多”弊大于利:想太多会大大增加你的判断噪声,通常不如按照几个简单指标、几条简单规则走标准化判断流程。
3.你应该关注判断的过程,而不是判断的结果。相信过程,走流程,是决策卫生的关键。
说一个最基本、最简单而且也是能最有效减少噪声、提高准确率的判断方法,「机械预测(mechanical prediction)」。你会被它的简单性和有效性所震惊,你会很奇怪为什么大家没有普遍这么做。然后你会意识到,这背后有个值得深思的处世哲学。
假设我们公司有两位新来的女高管,一个叫李薇一个叫于丽娜。她们都是搞行政的,岗位职责一样。她们都刚刚接受了一家咨询公司的评估,已知她们在五个能力维度上的得分是下面这样的 ——
请你判断,两年后,她俩谁的工作表现会更好?
王总说这很简单, 直接看平均分啊。李薇的平均分是 7.2 分,于丽娜是 6.8 分,那么显然是李薇更强。
孙总觉得不能这么算。李薇的各项指标比较平衡,但是于丽娜的表达能力非常突出,那可是满分 10 分啊!她俩担任的是行政管理职位,表达能力难道不应该比技术能力重要得多吗?我支持于丽娜。
而赵总则说,老孙你说的也不一定对。表达能力更重要,那只是你的直觉,不一定符合事实。我的建议是能不能用个统计方法,拿以往的数据搞个线性回归分析,看看到底哪些指标更重要,然后来个加权平均值 —— 重要的指标我们就多算一点,不重要的指标就少算一点。
这里孙总使用的基于个人经验和直觉的综合判断方法,卡尼曼称之为「临床判断(Clinical Judgement)」,而王总和赵总建议的、用一个公式计算的方法,就是机械预测。王总用的是简单模型,赵总用的是稍微复杂一点的模型。
你猜哪个方法好。
卡尼曼介绍了好几项相关的研究,结论是高度一致的,这里面有个普遍的规律 ——
临床判断明显不如机械预测,而复杂的机械预测往往并不比简单的机械预测好多少。
*
先说临床判断不如机械预测。前面的例子是一项真实的研究。到底李薇强还是于丽娜强?研究者请一群专业心理学家,调动各种他们认为有效的理论,做了综合的临床判断……结果专家的预测结果和实际绩效结果之间的相关系数只有 0.15。这意味着他们的判断也就比投硬币稍微好一点。
而有人用回归模型做数据分析,搞了一个计算加权平均值的机械预测公式,结果的相关系数则有 0.32。
这个研究不是孤立的。2000 年,有人综合调查分析了 136 项研究,其中包括各种主题 —— 什么黄疸病的诊断、服兵役的适应性、婚姻满意度等等 —— 结果是其中 63 项是机械预测更准确,65 项是机械预测和临床判断一样好,只有 8 项是临床判断比机械预测好。
而且别忘了机械预测比临床判断快得多,而且根本不需要相关领域的专家,可以说是省事省力省钱。
可是为啥呢?专家不是会具体问题具体分析吗?怎么还不如一个公式的水平高呢?
卡尼曼说,原因就在于专家的噪声太大。
*
回到开头那个关于李薇和于丽娜的判断。机械预测直接用公式计算得分,这听起来确实很生硬。也许有的人某一项素质就是特别好,就应该得到特别的关注。有的数学天才就是从小专攻数学,你总不能说因为他英语没学好就抹杀了一个天才吧?上大学不还有个保送渠道吗?专家具体问题具体分析,就是要识别这样的特例,进行复杂判断。
这个逻辑听起来没错,毕竟每个人的成长模式都不一样,不应该一刀切。
但是这种复杂判断的有效性被高估了。于丽娜的表达得分是 10 分,这能说明她是一个表达天才吗?你要知道天才是非常、非常罕见的。也许得 10 分的人很多,也许她那个 10 分纯属侥幸。孙总看见于丽娜的一个 10 分就押注给她,这是一个冒险的、不靠谱的判断。
你所以为的特殊情况,往往就是一般情况。
如果有一个比如说“渣男模型”说凡是这几个指标得高分的男生都很有可能是渣男,最好不要找他们做男朋友 —— 我相信每一个找到这种类型男朋友的女生,都会发自内心地认为自己那个男朋友是特例,说不是啊!我男朋友给我送过饭!他就是跟别人不一样!
其实你高估了“不一样”。你见过的人太少。你心目中的不一样正是模型眼中的一样。
这个高估可能来自自己的经历和记忆,比如觉得于丽娜特别像小时候看的某个电视剧里的女强人……而这恰恰是稳定模式噪声。
机械预测抹杀了所有这些“特殊情况”和“微妙考虑”,这可能会带来一些判断损失 —— 但是,机械预测没有噪声。
那么卡尼曼说,这些研究结果表明,那些所谓微妙考虑的收益,比不上噪声带来的破坏力。
再换句话说,就是“想太多”弊大于利:想太多会大大增加你的判断噪声,通常不如按照几个简单指标、几条简单规则走标准化判断流程。
*
机械预测有多好使呢?每个法官有自己的判断风格吗?有人就根据每个法官的判决风格给他们定制了一个线性预测模型。比如这个法官爱对惯犯重判,那他的模型就会给“是不是惯犯”这个指标更高的权重。研究者做了假想的判决:让法官的模型代替法官做判决 —— 结果如果你跟踪那些判决五十年,你会发现这些模型的判决比法官本人的判决更合理。
你的模型,都比你本人好。因为模型没有喜怒哀乐。
一个更有意思的研究对 847 名行政职位的候选人进行评估,就如同这一讲开头那样分成几项打分。结果发现,哪怕用非常简单的模型 —— 比如直接取平均 —— 也比专家的临床判断好。
而且研究者甚至发现,哪怕用简单到不合理的模型 —— 也就是*随机*决定几项指标的权重 —— 预测结果中也有 77%的模型表现比人类专家好。
用卡尼曼的话说就是“你几乎不可能制造一个比专家表现更差的模型。”
机械化操作就有这么大的好处。人的判断噪声就有那么大的坏处。
*
另一个规律是复杂的模型未必更好。
有人给的建议是不用把预测算法弄那么复杂,你就弄几个指标,每个指标分别打分,然后也不用考虑什么权重,直接算个总分就好。
为什么呢?因为这可以避免过度拟合。是可以搞个“多元回归分析”,利用现有的数据发现每个指标的最佳权重 —— 但是你对现有数据拟合得太好,反而会伤害这个模型的预测能力。你会放大数据里的误差,你会高估或者低估一些指标的权重。
当然还有个办法是用“人工智能”,也就是“机器学习”。这次我们不是考察几个指标,而是考察几百个指标,用*大*数据,能不能提升预测水平呢?
如果数据量足够大,这个的确可以。有研究表明机器学习预测犯人再犯罪率,比法官要准得多。
机器学习的预测表现也的确比简单模型好,但是并不会好很多。这是因为机器学习的预测能力也有个上限 —— 那就是「客观无知」。
*
可以总结一套机械预测方法了。不管你是在银行决定发放贷款也好,还是作为医生给人诊断病情也好,都可以使用这个方法。
第一步,是确定若干个评分指标。卡尼曼的建议是最好不要超过五个。
举个例子,「阿普加评分(Apgar Scale)」。这是麻醉学家阿普加1953年设计的一个判断新生儿是否健康的模型。他一共考虑了五个指标,分别是 ——
肤色
心率
表情反应
肌肉张力
呼吸
第二步,打分。给每个指标设定一个整数分数区间。
比如阿普加评分中每个指标可以打 0、1 或者 2 分。像肤色,全身粉红色就是 2 分;四肢是青紫色就是 1 分;如果全身青紫就是 0 分。
第三步,计算总分。也不用加权平均了,简单相加就行。
阿普加评分的满分是 10 分。那么这个判断系统规定,总分在 7 分以上就是健康;4 到 6 分就不太健康;0 到 3 分就是需要立即采取急救措施。
简单吧?现在医学界有些别的诊断,比如一些癌症的筛查,都是使用类似的打分系统。这个方法把复杂的决定分解成了几个维度上的简单判断。它容易操作,不怎么受医生经验和水平的影响,而且因为大大减少了噪声,准确性很高。
*
这个方法既然这么简单又有效,为什么没有普及开来呢?事实上现代医疗诊断中也没有完全使用算法,还是以医生自己的临床判断为主。更不用说像招聘、决定一个电影项目能不能上马之类的决策,都是应该用、而没有大规模使用这个打分法。
以前的研究者觉得这是因为决策者反感算法。现在最新的研究认为不是这样。
其实决策者能接受用算法判断 —— 但是决策者对算法的容忍度特别低。
如果人类判断错了,我们会说这很正常,人本来就经常犯错。但是如果算法判断错了,我们就会很恼火,我们就倾向于再也不信任它了。
这就好比说自动驾驶汽车。将来某一天,自动驾驶出事故的概率将会比人类司机要低 —— 但是我们能容忍人类司机出事故,我们不太能容忍自动驾驶汽车出事故。
我们认为犯错是人类的特权,机器没有权利犯错。
卡尼曼不打算向这个思想偏误宣战。卡尼曼的态度是我们无需把判断彻底交给算法,我们可以还是自己判断,但是我们模仿算法。
*
做判断应该“走程序” ——
你应该关注判断的过程,而不是判断的结果。
其实结果对错往往是不能立即知道的,甚至可能永远都不知道。你说当初大学选专业,你选的对吗?你现在也未必知道。你能做的,是每次判断的时候,使用最好的判断方法。
你要的是程序正义。只要你这个程序科学合理,你判断正确的可能性就会提高。所有关于决策判断的研究都是在改善程序,而不是在保证某一次判断的结果正确。
相信过程,走流程,是决策卫生的关键。其实日常做事也是这样。
《噪声》6:有谱才能靠谱
量化判断容易产生很大的噪声,最关键的就是一定要有一个参考尺度。这个尺度可以是主动设定的,可以是类似事物的基础比率,可以是排名决定的,也可以使用一个共同的参考框架。如果没有尺度,判断就会盲目。
精准而低噪声的判断力能让你成为一个“靠谱”的人。所谓靠谱,就是能够以一个客观的尺度,做出量化的、合适的判断。
多年前有个社会新闻是这样的。某公司办公楼的正面是一块大草坪,公司领导强调不要踩踏草坪,可是员工们总爱抄近路踩着草坪进出大楼。有一天,公司总经理在办公室的窗前看到,一个负责保洁的员工居然没有走直线,选择了绕过草坪进门。总经理非常高兴,立即宣布,奖励该员工一千元!
这就叫不靠谱。一千元相对于那个员工的工资来说不是小数。不让踩草坪这种规定如何愚蠢暂且不说,如果一个人因为这点小事儿就能得到重奖,那那些兢兢业业工作,做出实质贡献的员工又该怎么奖励呢?一惊一乍重奖重罚是非常土的管理方式,与其说是为了管理还不如说是老板在享受权力的乐趣。
当我们要把自己的认识、感受、情绪冲动转化为行动的时候,我们常常要决定这个行动的力度应该有多大。而我们非常不善于做这样的量化。
再举个例子。一个 79 岁的美国老太太到麦当劳吃饭,不小心把咖啡洒在了自己的脚上,烫了几个泡,被诊断为三度烫伤。老太太起诉了麦当劳,因为根据规定,麦当劳的咖啡温度应该是 65 摄氏度左右,而那天服务员没调好,达到了 87 度。
结果法庭判决麦当劳赔偿 270 万美元。
很多人看到这样的新闻会赞美美国的司法制度,说就应该罚这么狠,所以商家才必须好好服务、没有假货。但是你想过没有,如果犯个这么小的错误都会随时被罚那么多钱,这生意还能做了吗?其实“天价赔偿”在美国也是罕见的,这就是为什么它是新闻。
事实是天价赔偿不但不代表司法制度的优点,而且反映了司法制度的缺陷。这是噪声。
*
人的大脑能非常自然地、直觉地给判断分配数值。卡尼曼把这种操作称为「匹配(Matching)」。比如说,此时此刻,如果满分是 10 分,请问你的心情是多少分呢?你马上就能给个分数。你觉得现今中国思想界的活跃程度,相当于一年四季中的哪个温度呢?你大概张嘴就来。
而匹配有很大的噪声。卡尼曼举了一个非常重要的例子,每个企业管理人员都应该深思。
现在很多公司会使用一个叫做“360度绩效评估”的系统去评价员工的表现。这个系统把个人绩效分解成了很多方面,包括沟通技巧、人际关系、领导能力、行政能力……等等,员工周围的人,比如同事、上司、下属、包括员工自己、甚至可能还包括公司的顾客,都要在这些维度上给他打分,每一项最高 5 分。
你觉得这种评估合理吗?能真实体现一个员工的表现吗?
有人对360度绩效评估做过严格的研究,结论是悲观的。两个员工得分的差异,只有 20% 到 30% 可以归因于这两个人的表现差异 —— 剩下 70%-80%,都是噪声。
四分之一的信号,四分之三的噪声。这就等于说信号几乎都被噪声掩盖了,有极大的可能性表现比你差的同事得分比你高。
你能想见这里面有「水平噪声」。每个人的评分标准不一样,有的人认为 3 分代表“不错”,有的人认为 4 分都是低分;有的人对同事就是比较刻薄,有的人给谁都打 5 分。这里肯定有「稳定模式噪声」。一个严厉的上司可能偏偏就欣赏有一技之长的人,并且容忍他所有的缺点。这里面当然还会有「偶然噪声」,有个同事刚刚拿到奖金,看谁都是好人。
这个现象是大多数绩效评级都不能准确反映绩效。凭印象打分这种形式非常不靠谱。
不过打分毕竟还有个固定度数,5 分就是满分,不可能出现离奇的分数。
*
而美国法庭判决的罚款,则是没有度数的。刑事法庭判罚的刑期由法官决定,民事法庭判罚的罚款由陪审团决定,二者都有很大的任意性。像前面说的那种案子,罚款会由两部分组成,一个是赔偿性的,一个是惩罚性的 —— 天价罚金,就是来自惩罚性罚款。
这个思维是,啊,这件事儿实在太伤天害理了,我们必须给你一个惩罚。研究表明惩罚的冲动来自陪审团的愤怒。如果你让人用 0-6 分给自己的愤怒和想要惩罚的意愿打分,两个分数之间的相关系数高达 0.98 —— 几乎就是完美的。也就是说,陪审团越愤怒,想要给出的惩罚就越严重。
至少从噪声角度来说,这个愤怒和惩罚严重性之间的联系其实没问题。问题出在怎么*具体量化*惩罚的严重性上。
如果陪审团想要“严惩”,那请问到底罚多少钱才算是“严惩”呢?
这里面没有任何标尺。你可以罚一百万也可以罚一百亿 —— 你说罚多少就罚多少。
这可不是法律人的疏忽,这是美国法律的规定。法律不但不给陪审团提供罚款尺度指导,而且明确禁止向陪审团传达其他案件中惩罚性赔偿金的数额,不让陪审团有参考。这就等于说让陪审团完全凭着自己的正义感设定罚款。
而卡尼曼说,这种法律假设了一种人类不具备的能力。
在中国,一般的罚款都有个指导尺度,比如罚涉案金额的多少倍,罚公司年利润的百分之多少等等,大家都有个合理预期。美国没尺度。陪审团有时候真不知道该怎么罚,所以有时候真的能罚出一个不可思议的天价来。
怎么对待量化噪声呢?
*
第一个办法当然就是给一个尺度 —— 也可以说是给一个「锚」。
有研究表明,你只要跟陪审团说一句,不久前有个类似的案子,判的惩罚性赔偿是 150 万美元,陪审团立即就有数了。他们仍然是绝对自由的,他们可以判罚任意的数字,但是他们会以 150 万美元为基准上下浮动,不至于弄个 1.5 亿美元。
所以你跟人谈判,如果涉及到要量化什么东西,一定要先下手为强,给对方报一个对自己有利的数字,作为尺度参考。对方会被你影响的,而且是很大的影响。
反过来说,如果对方先报了数字,你要尽力避免被他影响。
*
第二个办法是寻求外部观点,找一找基础比率。
如果你对陪审团说,像这样的案子,过去两年中平均的罚款金额是 150 万美元,这就是一个非常有力的说辞,可以算的上是客观判断。
卡尼曼有个例子是这样的。朱莉是个女大学生,已知她四岁的时候就已经识字了,你能不能预测一下,朱莉在大学的 GPA(平均学籍点) 是多少?
正确的预测方法是先看一般大学生的平均 GPA 是多少,比如大约是 3.2。再看一般大学生最高的 GPA 是多少,大约是 3.8。朱莉四岁识字,说明比一般孩子聪明 —— 但是并不算“天才”那种级别的聪明,所以我们大约可以认为她的 GPA 会比平均水平高,比最高水平低。
这样你可以猜一个 3.2 到 3.8 之间的数字,比如说 3.6。这就是有章法的、靠谱的判断。
*
第三个办法是排序。应该把你要判断的事物先都放在一起,从高到低排列,然后再打分。
老张的技术水平到底应该给 3 分还是 4 分,你不一定能说准。但是老张和小王他俩谁的水平高,你容易看出来。相对判断总是比绝对判断的噪声小。
音乐比赛中选手的出场顺序对评分影响实在太大了,先出场有极大的劣势。科学的办法应该是让评委按照随机顺序看录像打分,而且一定要先把所有选手录像看完再统一打分。
比如你要给同事评分,噪声最小的办法是先把所有人从高到低排列,然后统一给比如说排在前 20%的人 5 分,后 15%的人 1 分……
有的公司就是这么干的。这样的确更公平,更能看出来到底哪些员工强、哪些员工弱。可是这个强制排名的做法也有很多弊端。
最大的问题是也许大家的表现差异并不像排名显示的那么大。也许这就是一个优秀的团队,每个人都不错。最差的老王也不比最好的小李差多少,那你凭什么给小李 5 分,给老王只有 1 分呢?这不太“狼性”了吗?这不影响团结吗?
所以一般的公司不会使用强制排名。强制排名又不好,主观打分又噪声太大,这就是为什么调查表明 90%的公司都认为绩效评估没啥用。那还有什么办法呢?
*
第四个办法是给一个「共同的参考框架(Common Frame of Reference)」。这个方法既避免了排名,又尽可能地让打分客观。
办法是这样的。还是在每一项评分上打 1 到 5 分,但是这回我们要详细规定,到底什么情况给什么分数。
比如一个评估餐馆服务员表现的共同参考框架是这么规定的:面对顾客时 ——
5 分,是哪怕顾客提出了不寻常的要求,也能尽量提供帮助;
4 分,是当顾客点的菜没有的时候,能够愉快地提供建议;
3 分,是听顾客只说一遍,就能准确记下来点了什么;
2 分,是跟顾客说话不够有礼貌;
1 分,是对顾客视而不见,跟别人聊天
你看有了这个框架,打分是不是就会精确很多,不同的人打出来的分数也会更加一致。
这个办法的缺点在于它对判断者的要求比较高。你必须仔细学习打分的规则,才能做出可靠的判断。对很多公司来说,让人花这么大工夫搞绩效评估未必值得。
*
总结来说,量化判断容易产生很大的噪声,最关键的就是一定要有一个参考尺度。这个尺度可以是主动设定的,可以是类似事物的基础比率,可以是排名决定的,也可以使用一个共同的参考框架。如果没有尺度,判断就会盲目。
那我们考察一下日常生活中的种种判断,就有问题了。人们常说要「加大力度」干什么什么,对什么什么行为要「严惩不贷」,要「大力推进」什么什么……这些都是什么意思?「你放手去做吧」是说要钱给钱吗?又或者「组织是你的坚强后盾」是给钱又给人吗?
当然,一定的模糊性往往能给说话的人保留更多的主动性。不过我们自己做判断做决定还是应该尽可能地精确量化。什么叫靠谱,关键是得有个谱。
孔子说「以德报怨,何以报德?」意思就是君子做事千万别就考虑眼前这一件事儿,你得考虑这件事儿会让别人对你有个什么样的预期。为此你必须把一些其他的事情、发生在别人身上的事情跟这件事儿放在一起考虑,给一个不大不小恰到好处的反应力度。如果张三伤害了你你还对他好,李四帮助你你反而抱怨他,那你的噪声就太大了。