密歇根大学政治学教授阿克塞尔罗德做的一项关于囚徒困境的实验研究,邀请了许多知名的博弈理论家、心理学家、社会学家、政治学家和经济学家进行了一场由计算机模拟的比赛,提供重复囚徒困境的博弈策略。
这次比赛中,一个叫“一报还一报”的仅4行代码的算法最终胜出了。把程序代码翻译过来就是:
第一,在与对方的第一次搏弈中,不管对方善恶与否,自己总是持合作态度。
第二,在第一次较量中,我们可能会被恶人欺负了,那第二次较量时就一定要报复。
第三,如果对方又重新释放善意,选择合作,那就不计前嫌,继续跟他合作。
阿克赛尔罗德又组织了第二次比赛,并且向所有参赛者通报了“一报还一报”的算法。这次一共征集到了62个博弈程序。最终还是“一报还一报”策略胜出了。据说几十年过去了,还是没有找到能打“一报还一报”这个策略,它成了真正的“独孤求败”。
这个算法的核心就两条:1. 第一次无条件采取合作态度;2. 之后每一次博弈重复对方上一次策略。上述第二次比赛更有意思,因为在公布了这个算法策略的情况下,还是没有其他算法能打败它--彻底的阳谋胜出。
《论语》:“以德报怨,何如?”子曰:“何以报德?以直报怨,以德报德。”
其实孔子老早就告诉了我们,就是用惩罚回报恶行,用善行回报善行。他并没有迂腐到以德报怨的地步。长期来看,其实“一报还一报”是释放出了最大的合作善意,既让对方对自己行为有明确的预期,又能为自己争取利益。
这个有趣的实验再次说明了:
1. 复杂的好结果可以由最简单的原则产生,需要时间的累积和释放。
2. 长期看“善意”和“阳谋”是最有效率的,但需要构建重复博弈的环境,这样最有助于合作中降低交易成本。
3. 德鲁克说:管理的本质是激发每一个人的善意。看来并不是矫揉造作,确实说到了管理的根本。
实际运用中要注意:
1. 一定要明确是重复博弈,单次博弈只会释放最大的恶,标准囚徒困境就是例子。
2. 合作要让双方都有利可图。没有共同利益或者零和博弈里,是失效的。
3. 在开放的多方系统里(比如成长型市场里,比如分散型市场里),并不是非要惩罚回报恶行。停止继续合作、寻求新的合作者是更有效的方式。
4. 当涉及多方博弈的时候,情况会复杂很多。囚徒困境提出的背景是研究美苏冷战,只有两个主体。第三方引入会复杂得多(Period Three Implies Chaos)。
总结:以直报怨算法是简单、有效、经检验的“最大善意”算法,可以提高合作双方的共同利益。但需要注意适用的条件。