囚徒困境博弈试验
阿克斯罗德 (Robert Axelrod)教授的“ 囚徒困境重复博弈计算机程序奥林匹克大赛 ”。
1、囚徒困境博弈
囚徒困境 (在英文中为“ the PrisonerD ilemma”,简称“ PD”)一般有以下简单直观的形式:
根据上述定义 ,囚徒困境博弈一般程式为 : PD =T >R >P >S。 根据囚徒困境的这种一般形式 ,为了简便计算 ,阿克斯罗德为其博弈竞赛设计了一个如下图所表示有限次重复博弈的支付矩阵 :
2、比赛规则
向博弈论专家们发出广告 ,让有兴趣参赛的博弈论专家和一些社会科学家各自设计一种自认为是最好的策略 ,来参加他的“ 博弈策略 ” 比赛。
阿克斯罗德设计了一种“ 随机策略 ”作为“ 比赛 ” 的底线。“ 随机策略 ”,也就是“ 没有策略的策略 ”:随机地出“ 合作 ”(C)和“ 背叛 ”(D )“ 牌 ”。如果有哪一个策略比“ 随机策略 ” 的总得分还差 ,那一定是最糟糕的策略
将所有策略都转换成同一种电脑语言并在一台大型计算机中让它们一一对垒。假设有有 15种策略 ,就有 225场“ 比赛 ”,其中包括每个策略程序也与自己对垒 (同一种策略程序对垒 ) 。 阿克斯罗德还让每场“ 比赛 ” 玩 200个回合。 通过这 225场 200个回合的博弈“ 比赛 ”,看哪一个策略参赛者能获得的支付最多 。
3、三次比赛
第一次比赛:14个“ 策略参赛者 ” + "随机策略",一报还一报策略胜出。
第二次比赛:阿克斯罗德还把第一届比赛结果告诉了所有第二届博弈对抗赛的参赛策略程序设计者 ,并附有他自己的分析 ,说明为什么善良及宽恕的策略会在第一届博弈对抗赛中表现得如此优秀。
62个“ 策略参赛者 ” + "随机策略",一报还一报策略胜出。
第三次比赛:阿克斯罗德先将最初 63套策略程序存入电脑 ,让其作为演化博弈的第一代 。 在第一代之间的对抗赛结束时 ,每一种策略的胜利不是由所得分数来评判 ,而是根据由每种策略产生多少“ 后代 ” 来决定。
当一个子代生成后 ,有些策略逐步变得稀少起来 ,有些甚至完全消失了 ,而其它策略则变得多了起来。 经过 1000代 ,策略的比例和环境都不再改变而达到了一定程度的稳定。 第三届“ 重复囚徒困境演化博弈 ” 的实验结果表明 ,几乎所有“ 诡诈型 ” 策略都在 200代左右完全消失了 。 “一报还一报 ”策略仍然在第三届演化博弈比赛中表现得很出色。 其它 5种“ 善良而不懦弱 ” 的策略也和“ 针锋相对 ” 同样成功。
阿克斯罗德最后还发现 ,当演化博弈竞赛中所有“ 诡诈 ” 策略都绝迹后 ,已无法区分“ 针锋相对 ” 和别的“ 善良型 ” 策略 ,也无法区别出任何两种竞赛策略之间的差异了。 因为 ,他们全是“ 善良 ” 型的 ,即只会向对方出“ 合作牌 ”。
“一报还一报”策略
一报还一报策略:
1、不事先作恶;
2、谁背叛我,我就报复谁;
3、如果对方回心转意,我就尽释前嫌。
一报还一报策略特点:
1、它很善良,不会机关算进,陷害别人;
2、它不盲目善良,你对它不好它就对你不好;
3、它比较宽容,允许对方改正错误。
4、最后也是最重要的一点,它非常简单,简单到了别人一眼就能看出来它的“个性”,具有很强的可识别性,别人不会看走眼。
收获
1、
好策略必须有三个特征 :“ 善良 ”、“ 宽恕 ” 和“ 不嫉妒 ”。
所谓“ 善良 ”,就是从不主动的先背叛。 所谓“ 宽恕 ”,就是指很容易忘却对方过去的“ 错误 ”。 一旦对方“ 改过 ”,即以合作对待。 所谓“ 不嫉妒 ”,就是当别的参赛者“ 赚 ” 得和你一样多时 ,你仍然很高兴 ,而且乐于同时从“ 庄家 ” 那里赢钱。
2、
在实验中阿克斯罗德教授还发现,如果其他的策略都很狡诈,那么在最开始“一报还一报”策略是会吃亏的。但是不用担心。只要突破一个小小的临界点,也就是说,只要有一小部分人坚持这个策略,他们就能相互合作,不仅能够生存下来,还会吸引越来越多的人追随他们。
3、
之前总是说“ 善有善报 ,恶有恶报 ,不是不报 ,时候未到 ”,现在阿克斯罗德教授用计算模型进行了验证,虽然这个模型仅仅时1对1的博弈可能有一定的局限性,但是我们至少可以从中学到一些如何做人和如何进行社会选择的道理 ,或最起码可以说可以从中获得某些启示 。
END