你一定听说过刺猬和狐狸的故事。如果没有听过也没关系,你只要知道故事里有两个关键角色就行。以塞亚·柏林说,刺猬知道一件大事,狐狸知道许多小事。
知道一件大事的刺猬,拿着锤子看什么都是钉子,以不变应万变。知道许多件小事的狐狸,不执着于宏大叙事,也不急切于找到根本答案,兵来将挡,水来土掩,走一步看一步,根据反馈决定下一步,以万变应万变。
柏林说的当然是人,人的两种认知框架和学习模式:自上而下,还是自下而上?追求定于一,还是安于多?柏林说,刺猬偶尔蒙对,但经常铸成大错。狐狸小错不断,但也不犯大错,从反馈中学习,保持开放,持续进化。在柏林之后,刺猬与狐狸之争似乎就有了定论,狐狸赢了。
人没有千里眼顺风耳。往前看的能见度总是有限的,因为世界不确定;因为因果链条杂乱纠缠;因为可测量的往往不重要,而重要的往往不可测量;因为人的偏好既非一成不变,而在任一时刻也并不清晰可辨;还因为并不能从每个人的偏好简单加总出人群整体的偏好;更因为人与人之间始终在斗心眼。面对社会这个动态复杂系统,刺猬宣布自己知道终极答案,不管你信不信,反正我是不信的。
不过,今天主要是为了给狐狸提个醒,不要高兴太早。狐狸们从反馈中学习,而反馈里有陷阱。
反馈的三种学习方法
先申明一点,重视反馈没有错,不重视反馈那是自取灭亡。反馈是人们评价决策、校准行为的最重要依据。教师和学校教育的最大功能,就是为下一代系统性地提供有反馈的学习,使他们步步进阶。不仅下一代,所有人都是有反馈才有学习,反馈的质量决定学习的质量。
从反馈中学习一般有三种方法。
第一种方法是从自己的经验中学习。
你过去做什么以及怎样做获得成功,将来就会更多地用同样方法做同样的事,反之则减少。从得失中学习是最朴素的学习机制,每个人天生就趋利避害。
博弈论研究也支持这个学习策略,哈佛大学教授诺瓦克(Martin Nowak)经过无数次计算机模拟后得出结论, 所谓“赢继续输就变(Win-Stay-Lose-Shift)”,赢就接着来,输就换个招。你不用观察对方是什么策略,你只要看自己的得失,赢就继续输就换,简洁到人人无师自通。
从反馈中学习的第二种方法是模仿。
别人怎么成功,你就学习他的成功经验,哪怕是想象出来的成功经验,常常有用。中国经济过去40年的高速增长,本质上也要归功于对其他成功经济体增长模式的模仿。所谓摸着石头过河,自己去摸很重要,但更重要的是有个现成的方向可以让你摸过去。你知道自己要过河最重要。
模仿最有意思的地方是由表及里,从外在成功倒推内在的成功机理,先回溯,再模仿。其实并不存在万能方法判定解剖到了哪一层,就真正管用。
中国近代以来通过模仿追赶西方,从器物层面开始,所谓中体西用,中为体,西为用,那就不用动大手术了,坚船利炮先买后造就行;然后发现这样不行,精英们形成共识得动制度,于是有了辛亥革命武昌城头一声枪响;这就够了吗?有人认为还是不够,国民性才是问题所在,必须触及灵魂最深处,非改造文化不可。到底哪一层管用?就算今天我们回过去看,也难说有结论。
模仿是本能。我小学一年级的时候成绩不好,就模仿班上第一名。她看黑板我看黑板,她写字我写字,她托腮帮子我也托腮帮子,后来我的成绩就变成了第一名,到今天我也不知道模仿她托腮帮子有多少帮助。
从反馈中学习的第三种方法是进化算法。
物竞天择,适者生存。适应性越高的越能活下来,有越多的后代,扩散开去。至于适应性高的原因是什么,不是很重要。天地不仁,以万物为刍狗,刍狗不必要了解天地的想法,本来就了解不到,了解到了搞不好吓自己一跳。
人之所以是今天这个样子,不是因为哪只黑猩猩做了伟大计划要站起来,而是适应的就活下来开枝散叶,几百万年一代代重复,才变成今天这个样子。倒回去看进程,有无数种其他可能性倒毙在半路。现实的就是合理的,合理的就是现实的。 进化算法就是模拟自然界的套套逻辑(tautology):适者才能生存,而生存下来的就是适者。自然界就在循环论证。
在全社会的层面上,天然采用着进化算法。无数种观念和行为彼此竞争,适应者留下来,传开去。从个人的层面看,进化算法不容易用,因为进化算法走的是盲选路线,而盲选需要从中选择的池子很大,得有大量有差异的观念和行为接受选择。个人没办法精神分裂到那个地步。
当然,个人虽然不能精神分裂,但可以考虑通过货币作中介来模拟分裂。有人把钱投给许多基金经理,定期再评估,超过基准的保留,低于基准的淘汰,就是近似地模拟进化算法。
对进化算法来说,在个人与社会之间的组织层面才是最有趣的。组织总会要求齐一性、科层制和标准化,所以足够多元化和差异性如果要保留下来,必须是有意识为之才做得到。许多公司在内部设计机构的、文化的、激励的区隔,特地打造出体制内孤岛,以防止观念经由传染而趋同,合理性就在于此。
比如说,微信能够崛起,跟团队在广州,而不在总部深圳很有关系。后来腾讯把这套方法总结成赛马机制,事先可能是无心插柳。
我把反馈这一部分小结一下。刚才讲了狐狸从反馈中学习的三种主要方法:从自己的经验中学习,从模仿他人中学习,使用进化算法模拟学习。三种方法都重视反馈,根据反馈调整行为,本质上都属于适应性学习,都很有用,只是别忘了一点:重视反馈要有限度。狐狸很精明,太精明了也不行,有陷阱等着它。
适应性学习的陷阱
适应性学习的共同陷阱,就是它们都是短视的。无论是机会还是威胁,它们都更重视近在眼前的机会和威胁,而不够重视将来的机会和威胁。
从自已的经验中学习,依靠的是即时得失反馈;通过模仿他人学习,依靠的是观察别人的得失反馈;进而用进化算法,则更是只以即时成败论英雄,连原因都懒得了解。
适应性学习之所以有用,就是因为短视有合理性:你不在每个短期中活下来,就没有长期可言。 但过度偏好即期收获也挖下陷阱,你在每一个短期中都得分,变得越来越适应环境,获得了越来越多的稳定,到最后没有新东西,环境一旦剧变,你拿什么去对付变化?
适应性学习都是从历史记录中学习,而不是从历史的所有可能中学习(counterfactual thinking)。因为它只能学习已经发生的事情,不能学习没有发生,但有可能发生的事情。所以,它注定没有应对剧变的想象力。
适应性学习带来两大陋习,一个是为了眼前得失牺牲将来,另一个是不肯为了全局牺牲局部。
为眼前利益牺牲将来,最典型的是上市公司每一季度都要保持利润增长,结果反而没有长期增长的新引擎,每一步都很满足,最后却落得没有未来。不肯为全局牺牲局部,最典型的是“在我死后哪管洪水滔天”。
所以,光有狐狸是不行的,还得有人做刺猬。狐狸要想活得日子长久,得搭刺猬的便车。刺猬有宏大模型、远大眼光、颠覆性理想,时常把我们带到巨坑里去,刺猬太多肯定不行,但没有刺猬的话,狐狸迟早会掉入自己挖的陷阱:到最后大家都是狐狸,极度适应当下的环境,最后变成一群精致的利己主义者,面面相觑没有出路。
重要的是怎么管理刺猬,别让它把我们带到坑里,能做的是试点。做大事之前先试点,低投入,隔离影响。低投入,所以失败不会有灾难性后果;隔离影响,所以失败的后果不会传染全身。当然,问题没有消失,只是推到了下一个环节:当试点产生经验,需要推广开来时,它会面临着那堵将特区与整体隔开来的高墙,真正的冲突在那里等着它。
想好了怎么管理刺猬,但首先你还得有刺猬。想想刺猬们真是一种独特的生物:与狐狸这群精致的利已主义者们正好相反,他们着眼长期得失,不惜牺牲短期得失,而且不管是自己还是大家的得失;刺猬中的绝大多数注定会失败得很惨,即使算上极少数获得成功的,作为一个整体,刺猬的平均预期收益是很低的。套用管理学大师马奇的话说,只有傻到有英雄主义才会做刺猬,他们是适应性过程中出现的bug。
不过,没有他们这些bug出现,就没有社会的生生不息。乔布斯建议年轻人stay foolish,坚持傻下去,意味深长。