4月5日：重复囚徒困境

#阅读卡片#

囚徒困境实验的3种进阶分析：

1、阿克塞尔罗德进行了第一阶段的“重复囚徒困境”实验，共设计出14种策略，让每种与其他都进行200局对战，之后计算每200局的平均成绩和总的平均成绩。实验结果选出的最优者是：第一局和对方合作，此后每局的策略是对手上一局所采用的策略，我们称之为“一报还一报”策略（“以牙还牙”）。它的平均分是504.5分，最低225分，最高600份。完全随机选择合作或者背叛的平均分最低，只有276.3分。

2、阿克塞尔罗德希望找到更好的策略，胜过“一报还一报”，便进行了第二阶段“重复囚徒困境”实验。单结果没有可以超越“一报还一报”的新策略。不过第二阶段测试中也发现“一报还一报”在应对“完全不管对手如何出牌，自顾自出招”时效果不好。在面对“90%一报还一报”策略时，容易出现回声效应（双方不断背叛对方）

3、阿克塞尔罗德又进行了第三阶段的“重复囚徒困境”实验，这次让62个程序以相同比例进行混战，200局一轮战斗，最终留下的是”一报还一报“和它的微小改动版。在有自然选择压力的情况下”一报还一报“是一种稳定策略。

所能想到的相关（待补充）：

1、“囚徒困境”是1950年美国兰德公司的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。两个共谋犯罪的人被关入监狱，不能互相沟通情况。如果两个人都不揭发对方，则由于证据不确定，每个人都坐牢一年；若一人揭发，而另一人沉默，则揭发者因为立功而立即获释，沉默者因不合作而入狱五年；若互相揭发，则因证据确实，二者都判刑两年。

2、或曰：‘以德报怨，何如？’子曰：“何以报德？以直报怨，以德报德” ————《论语宪问》

3、纳什均衡和严格占优策略

纳什均衡博弈的进行需要有以下几大元素：博弈者（2到n）；博弈规则：包括策略选择集合，博弈时间序列，信息集，所得集。

严格占优策略（strictly dominant strategy）：参与人在博弈中对其它参与人的任何可能战略选择的总是最佳的战略选择。当一个战略不比另一个战略好．而且有时还更糟时，这一战略劣于该另一战略；当一个战略总是比另一个战略糟时，则它是严格劣于该另一战略。

C1 C2 C3

R1 (4, 3) (5,1) (4,2)

R2 (2,1) (3,4) (3,6)

R3 (3,0) (4, 6) (2,8) 可以看出R1和C3是严格占优策略，R1C1为纳什均衡。

4、帕累托最优：“不可能再改善某些人的境况，而不使任何其他人受损。”

5、博弈之外：“第一性原理”和选择之锚。信仰、使命、愿景、价值观-让很多选择变得简单。这些东西就是我们的“选择之锚”。它们不会让我们每一次都赢，但是它们确实可以让我们在选择的关头，成本低、效率高、无大错、可积累。越是不确定的时代，这些选择之锚就越加重要。（4月3日罗辑思维）

延展（需要拓展阅读、思考的内容）：

1、《合作的复杂性》[美] 罗伯特·阿克塞尔罗德——“善良而不懦弱”策略存在优势的原因

2、动态平衡和用”存在的稳定性“解释生存策略：此话题可以尝试从另一个角度参与探讨薛兆丰经济学课中用科斯定理解释的黄石公园养狼问题。

3、在引入子博弈完美均衡和非完美信息后的纳什均衡。

4、哈耶克在《致命的自负》一书中所提出：

人类合作的扩展秩序(the extended order of human cooperation)能否自发生成和自然成长？如果能，其自发生成和自然扩展的外在条件和社会机制又是什么？

外挂（非常不擅长整理的我......先放着盒子里吧.....评论慢慢补充吧.......)：

1、社会学、生物学、经济学上，关于多回合博弈决策应用——选择“善良而不懦弱”。

2、西方古典社会契约论中的基本假设，一个具有共同利益的群体会在某种外在强制力量和社会安排下为实现共同利益而采取集体行动。

3、可预测的个体行为在博弈中的优劣势。

4、价值观上：信仰让很多选择变得简单。

4月5日：重复囚徒困境

推荐阅读更多精彩内容