每天我们都要做大大小小的决策,该找什么样的工作?又应该和谁恋爱?怎么和父母沟通?然后要采取五花八门的策略去实现自己的目标。不管你是否承认,每个人其实都是策略家,区别在于,有的人是出色的策略家,而有的人是蹩脚的策略家。
如果我们拥有所有确定的信息,做起决策来将会容易很多。但事实是,我们很难在决策前掌握所有信息;更麻烦的是,我们不是在一个毫无干扰的真空世界里做决策,我们的每一个选择、每一步行动都会影响到我们周围的其他决策制定者,而他们的选择反过来也会影响到我们。
你可以想一想伐木工人和军队里的团长的决策有什么区别。伐木工人在砍树时,不用考虑树会跳起来反抗,但是团长在面对敌人时,会考虑到自己的每一个命令下达后,敌人都会想办法对抗,那么团长就要不断克服这种对抗。这种互动的决定具有策略性,与之相对应的行动就是一个策略。在社会科学中,这种策略性的决策被称为**博弈论 **。
掌握策略思维的思考框架,可以帮助我们在日常生活和工作中更好地做出判断、采取行动,进而成为人生的策略赢家。我们就一起来学习这本博弈论的经典之作:《策略思维:商界、政界及日常生活中的策略竞争》。
本书由耶鲁大学教授奈尔伯夫和普林斯顿大学教授迪克西合作编写,他们结合了丰富有趣的故事和理论,所以没有相关基础的读者也不用担心读不懂。
你可以先来感受一个最经典的博弈问题——囚徒困境。囚徒困境可能也是最广为人知的案例。有这样一个笑话:
话说在斯大林时期的苏联,有一位乐队指挥乘坐火车前往演出地点,正在翻看当晚表演的作品乐谱,结果被两名克格勃(苏联国家安全委员会)军官盯上了。军官认定他的乐谱是一种密码,立即将他作为间谍逮捕。
乐队指挥争辩说:“那只是柴可夫斯基的小提琴协奏曲呀。”
审问者得意地说:“你最好还是老实招了吧,我们已经抓住你的朋友柴可夫斯基了,他这会儿正向我们招供呢。”
我们接着这个笑话讲下去。假如克格勃真的逮捕了一名叫“柴可夫斯基”的人(此人的唯一罪名就是起了“柴可夫斯基”这个倒霉的名字),将他和乐队指挥分开审问,并分别告诉他俩:如果两人都认罪,承认自己从事间谍活动,各判10年;如果一个认罪一个抵赖,认罪的人判1年,抵赖的人判25年;如果两人都抵赖,各判3年。
先从乐队指挥的角度来看,如果“柴可夫斯基”认罪,指挥的最佳策略也是认罪,因为认罪的话他会被判10年,而抵赖则要被判25年;如果“柴可夫斯基”抵赖,指挥的最佳策略也是认罪,因为认罪只会被判1年,而抵赖则要被判3年。所以最佳策略是认罪。
从“柴可夫斯基”的角度来看,情况和乐队指挥是完全一样的,最佳的策略也是认罪。因此,最后的结果就是两人都认罪,各判10年刑。
你大概会说,哎呀,最好的策略应该是两人都拒不认罪,各获3年刑期。但他们没有机会在做决策前好好商量一下。即使有机会商量,一旦他们被分开审问,每个人内心深处就会非常害怕自己被对方出卖,毕竟信任是非常难得的。最终两人还是逃脱不了10年刑期的命运。
生活中的个人、市场竞争中的企业、展开军备竞赛的国家,其实都曾吃过囚徒困境的苦。有些博弈是零和博弈(意思是不是你赢我输,就是我输你赢,没有双赢的结果),而囚徒困境里则出现了共同的利益和冲突,认识到这一点,对我们的分析和决策非常重要。那为什么囚徒困境里面的人很难获得最优的那个结果呢?
最近在学习人工智能,人工智能包括了机器学习,机器学习里面有一种分类为强化学习。
在传统的机器学习分类中没有提到过强化学习,而在连接主义学习中,把学习算法分为三种类型,即非监督学习(unsupervised learning)、监督学习(supervised leaning)和强化学习。
强化学习目标是学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境最大的奖赏,使得外部环境对学习系统在某种意义下的评价(或整个系统的运行性能)为最佳。
也就是根据外部环境做出最佳策略,当然这里的策略不断调整的,或者以后人类只要听众人工智能的安排就可以了,毕竟人工智能可以做出最佳策略。
简宝玉读书挑战打卡—《策略思维》书评