机器博弈 (三) 虚拟遗憾最小化算法

虚拟遗憾最小化算法(Counterfactual Regret Minimization)

  • 如果不能遍历计算机所有节点的遗憾值,那么可以采用虚拟遗憾最小化算法来进行模拟计算。

  • 假设:

    • 集合A是博弈中所有玩家所能采用的行为集(如在石头-剪刀-布游戏中出石头、出剪刀或出布三种行为)
    • I为信息集,包含了博弈的规则以及玩家采取的历史行动,在信息集I下所能采取的行为集合记为A(I)
  • 玩家i在第t轮次采取的行动a_{i} \in A(I_{i})反映了其在该轮次所采取的策略\sigma_{i}^{t}。包含玩家i在内的所有玩家在t轮次采取的行动a \in A(I)构成了一组策略组合\sigma^{t}

  • 在信息集I下采取行动a所反映的策略记为\sigma_{I \rightarrow a}

  • 在第t轮次所有玩家采取的行动是一条序列,记为h。采取某个策略\sigma计算行动序列h出现的概率记为\pi^{\sigma}(h)

  • 每个信息集I发生的概率\pi^{\sigma}(I)=\sum_{h \in I}\pi^{\sigma}(h),表示所有能够到达该信息集的行动序列的概率累加

  • 给定博弈的终结局势z \in Z,玩家i在游戏结束后的收益记做u_{i}(z)

  • 在策略组合\sigma下,施加博弈行动序列h后达到最终局势z的概率为\pi^{\sigma}(h,z)

  有了这些定义之后,我们现在来计算虚拟遗憾:

  • 当采取策略\sigma时,其所对应的行动序列h的虚拟价值(Counterfactual Value)如下计算(注:行动序列h未能使博弈进入终结局势):

v_{i}(\sigma,h)=\sum_{z \in Z} \pi_{-i}^{\sigma}(h)\pi^{\sigma}(h,z)u_{i}(z)

  我们首先去计算其他玩家在产生行动序列h中他们的概率值是多少,乘以在这个策略下,从行动序列h进入到终止局势z的概率,最终再乘以玩家i在终止局势z的概率。之后对终止局势做一个遍历,把它的乘积做一个累加。

  • 玩家i采取行动a所得到的虚拟遗憾值:

r(h,a)=v_{i}(\sigma_{I \rightarrow a},h) - v_{i}(\sigma,h)

  • 行动序列h所对应的信息集I遗憾值为:

r(I,a)=\sum r(h,a)

  • 玩家i在第T轮次采取行动a的遗憾值为:

Regret_{t}^{T}(I,a)=\sum_{t=1}^{T}r_{i}^{t}(I,a)

  • 同样,对于遗憾值为负数的情况,我们不予考虑,记:

Regret_{i}^{T,+}(I,a) = max(R_{i}^{T}(I,a),0)

  • T+1轮次,玩家i选择行动a的概率计算如下:

\sigma_{i}^{T+1}(I,a) = \left\{\begin{matrix} \frac{Regret_{i}^{T,+}(I,a)}{\sum_{}a \in A(I)Regret_{i}^{T,+}(I,a)}& if \sum_{a \in A(I)}Regret_{i}^{T,+}(I,a)>0\\ \frac{1}{|A(I)|} & otherwise \end{matrix}\right.

  • 玩家i根据遗憾值大小来选择下一时刻行为,如果遗憾值为负数,则随机挑选一种行为进行博弈。

例子-库恩扑克(Kunh's pocker)

  • 库恩扑克是最简单的限注扑克游戏,由两名玩家进行游戏博弈,牌值只有1,2和3三种情况。
  • 每轮每位玩家各持一张手牌,根据各自判断来决定加定额赌注。
  • 游戏没有公共牌,摊牌阶段比较未弃牌玩家的底牌大小,底牌牌值最大的玩家即为胜者。
  • 游戏规则:
游戏规则表

库恩扑克(Kunh's pocker):以先手玩家(定义为玩家A)为例的博弈树:

博弈树

  从初始节点开始,1、2、3分别表示玩家A手中的牌,当玩家拿了1之后,玩家B只能拿2或者3。玩家A选择过牌还是加注,玩家B也可以选择过牌还是加注。依次进行下去,就构建了博弈树。

  • 在这个博弈树里面,总共的信息集与12个:{1,1P,1B,1BP,2,2P,2B,2BP,3,3P,3B,3BP}。
  • 每个信息集由不同路径可以到达。如信息集1PB可通过如下路径到达:

1_{玩家A拿到大小为1的纸牌}\rightarrow 1P_{玩家A采取过牌行动} \rightarrow 1PB_{玩家B采取加注行动}

  可见信息集1PB所对应的行动序列为{P,B}

  • 在该问题中,到达每个信息集的路劲均唯一,因此所有信息集仅对应一个行动序列。

有了上述定义之后,我们可以采取如下算法进行策略选择:

  1. 初始化遗憾值和累加策略表为0
  2. 采用随机选择的方法来决定策略
  3. 利用当前策略与对手进行博弈
  4. 计算每个玩家采取每次行为后的遗憾值
  5. 根据博弈结果计算每个行动的累加遗憾值大小来更新策略
  6. 重复博弈若干次
  7. 根据重复博弈最终的策略,完成最终的动作选择

计算1PB的遗憾值

  • 假设初始情况下,两个玩家都以随机选择的策略进行决策,即在任一节点,都以50%的概率分别选择过牌和加注
  • 若第一轮中,玩家A的博弈过程为1 \overset{P}{\rightarrow}1P \overset{B}{\rightarrow}1PB \overset{B}{\rightarrow} Z_{2},收益为u_{A}(Z_{2})=-2
  • 计算玩家A针对信息集\{1PB\}选择“过牌”行动的遗憾值:
    • 在当前策略下,行动序列h=\{PB\}产生的概率:
      \pi_{B}^{\sigma}(h) = 1 \times 0.5 = 0.5

  由于在 \{1PB\}节点选择加注和过牌的概率均为50%,所以当前策略下,从行动序列h到达终结状态z_{1}z_{2}的概率分别为:

\pi^{\sigma}(h,z_{1})=0.5,\pi^{\sigma}(h,z_{2})=0.5

  又已知u_{A}(z_{1})=-1u_{A}(z_{2})=-2,可知当前策略的虚拟价值:

v_{A}(\sigma,h)=\pi_{B}^{\sigma}(h) \times \pi^{\sigma}(h,z_{1}) \times u_{A}(z_{1})+\pi_{B}^{\sigma}(h) \times \pi^{\sigma}(h,z_{2}) \times u_{A}(z_{2}) \\ = 0.5 \times0.5 \times (-1) + 0.5 \times 0.5 \times (-2) = -0.75

  • 若使用过牌策略,即\sigma_{\{1PB\} \rightarrow P},此时玩家B促使行动序列h=\{P,B\}达成的概率仍然为\pi_{B}^{\sigma}(h)=0.5,由于最终抵达的终结状态只有z_{1},所以\pi^{\sigma}(h,z_{1})=1
  • 则最终选择过牌的虚拟价值为:

v_{A}(\sigma_{\{ 1PB\}\rightarrow P}, h) = \pi_{B}^{\sigma}(h) \times \pi^{\sigma}(h,z_{1}) \times u_{A}(z_{1})=0.5 \times 1 \times (-1) = -0.5

  • 在信息集\{1PB\}上采取“过牌”的遗憾值

r(I,P)=r(h,P)=v_{A}(\sigma_{\{1PB\}\rightarrow P},h)-v_{A}(\sigma, h)=(-0.5)-(-0.75)=0.25

  • 库恩扑克的博弈共有12个信息集,对应上图中的正方形和三角形
  • 通过反复迭代计算,可以得到到达各个信息集应采取行动的概率:
image
  • 对于玩家A而言,库恩扑克的混合策略纳什均衡的理论解如下(\alpha \in [0,1/3]):
image

  可见,算法得到的解与理论得到的解之间较为接近,验证了算法的有效性。

微信公众号

公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容