博弈论学习2——贝叶斯博弈

定义

作为一种战略博弈,贝叶斯博弈有两个基本元素:参与人集合N和行动集合A_i,为了建模不确定性,引入自然状态集合\Omega,其中元素为对参与人相关特征的描述。\Omega有概率测度p_i,每个人有对于某个自然状态下的先验概率。

注意,这里的定义中,每个自然状态对于每个人视角的先验概率可能是不一样的,但一般来说,相等或者有关联性。

信号函数:t_i=\tau_i(\omega)表示自然状态为\omega发生后,在每个人选择他行动之前,第i人观察到的信号。T_i表示为\tau_i的所有可能值的集合,称之为类型集合,每一个\forall t_i\in T_i,p_i(\tau_i^{-1}(t_i))>0(这里表示第i人已经观察到信号t_i之后,t_i对应的自然状态集合中的状态的发生的先验概率当然应该是正的,是0的话,认为第i个人无法收到t_i)。如果参与人i收到信号t_i\in T_i,那么能推断出状态在\tau_i^{-1}中,那么就实现了状态的后验概率,赋予了每一个状态概率p_i(\omega)/p_i(\tau_i^{-1}(t_i))(也就是对于i已知t_i之后,\omega发生过的后验概率)。这里如果\omega\not\in \tau_i^{-1}(t_i),当然应该赋予0。

例如,对所有\omega\in \Omega,若\tau_i(\omega)=\omega,那么参与人能够拥有关于自然状态的全部信息。又比如\Omega=\times_{i\in N} \tau_i,并且对每个人测度p_i\Omega上的乘积测度,同时\tau_i(\omega)=\omega_i,则参与人能获得自己那部分自然状态,每个人的自然状态分量/信号是独立的而且每个人不能获得其他人的自然状态。

每个人关心他的行动组合,还有自然状态/信号。由于他只有关于自然状态的不完全信息,即使他掌握了所有自然状态下每个人的反应,依旧没有办法确定自己应该怎么做。

一个贝叶斯博弈包括:

  1. 有限集合N(参与人集合)
  2. 有限状态集合\Omega

对每个参与人i\in N

  1. 集合A_i(有效行动集合)
  2. 信号集合T_i和函数\tau_i:\Omega\to T_i
  3. \Omega上的一个概率测度p_i(参与人i的先验概率),必须满足对所有t_i\in T_ip_{i}\left(\tau_{i}^{-1}\left(t_{i}\right)\right)>0
  4. 一个关于A\times \Omega上的概率测度集合的偏好关系\succsim_i,这里A=\times_j\in N A_j

另外注意有时描述贝叶斯博弈并不涉及暗含的状态空间\Omega,而是描述成“简化形式”:参与人信息相关的基本元素是可能类型集合的组合。

贝叶斯博弈的纳什均衡:考虑将贝叶斯博弈<N,\Omega,A,T,\tau,p,\succsim>的纳什均衡定义成一个战略博弈G^*的纳什均衡,G^*的参与人被定义为i\in Nt_i\in T的组合(i,t_i)(具有类型t_i的参与人i),他的行动集合为A_i。这样行动组合为\times_{j\in N}(\times_{t_j\in T_j}A_j)。偏好如下定义:在G^*中参与人(i,t_i)偏好行动组合a^*优于行动组合b^*,等价于:参与人i在贝叶斯博弈中对不确定事件L_i(a^*,t_i)的偏好优于L_i(b^*,t_i)。注意,这里L_i(a^*,t_i)的概率定义为发现t_i之后的对i的后验概率(见上)。但是偏好的定义这里和概率无关。只有决策时,也就是求不确定事件的偏好时,才会用到概率求期望。

案例

二阶拍卖

考虑二阶拍卖的一个贝叶斯变形。也就是每个人知道自己对于物品的估价,但是不能确定别人的估价。作为特例,假定可能估价集合是有限集合V以及每个参与人都相信任何一个其他参与人独立做出的估价都是从V上的同一分布出发的。则可以建模为贝叶斯博弈模型:

  1. 参与人集合N={1,...,n}
  2. 状态集合\Omega=V^n
  3. 参与人行动集合A_i=R_+
  4. i收到的信号集合T_iV
  5. i的信号函数\tau_i定义为\tau_i(v_1,v_2,..v_n)=v_i,也就是自己的估价
  6. 先验概率p_iV上的某个概率分布,p_{i}\left(v_{1}, \cdots, v_{n}\right)=\Pi_{j=1}^{n} \pi(v_i)
  7. 偏好关系:对于某个人出价最高,那么值为v_{i}-\max _{j} \in _{N \backslash\{i\}} a_{j},否则为0

这个博弈的纳什均衡为,每个人都提出自己的估价。这是因为提出更高的价格,自己价值函数的期望更大;但也不会超过自己的预期定价,因为自己如果提高价格,而他人都提出了自己的估价,那么自己本来投不到的即使变成了投到了,还要额外付出代价,价值函数期望不会升高。


过度消息可能会导致的损害(感谢BZB和LX提供了这个例子)

情形1

图片.png

博弈的收益矩阵如上,参与人1选择行\{T,B\},参与人2选择列\{L,M,R\},状态集合为\Omega=\{A,B\},两个参与人有共同的先验概率分布p(A)=p(B)=\frac{1}{2}

参与人信号集合为T_1=\{0,1\},T_2=\{0\},两人的信号函数如下:
\begin{aligned} &\tau_{1}(A)=0, \tau_{1}(B)=1\\ &\tau_{2}(A)=\tau_{2}(B)=0 \end{aligned}
换句话说信号对于参与人2,没有意义。

这个博弈有一个唯一的纳什均衡:
\sigma_{1}(0)=\sigma_{1}(1)=B ; \sigma_{2}(0)=M
下面仅对于\sigma_{2}(0)=M做出解释:

由于对于参与人2,信号无帮助,因此他看来,仍有
P\left(w=A | \tau_{2}(w)=0\right\}=\left|\left(w=B | \tau_{2}(w)=0\right)=\frac{1}{2}\right.
在参与人1选择B时,对于2,选择L,期望为6,选择M时,期望为7,选择R时期望为6。

因此他会选择M。

在均衡中,参与人2的收益为7。

情形2

图片.png

博弈的受益矩阵同上,参与人策略同上,参与人1信号集合和信号函数同上。

参与人2的信号集合\{0,1\}\tau(A)=0,\tau(B)=1,也就是说2能通过信号知道1的决策。

这个博弈唯一的纳什均衡是:
\sigma_{1}(0)=\sigma_{1}(1)=T ; \sigma_{2}(0)=R, \sigma_{2}(1)=L
这个均衡中,无论\omega=A||\omega=B,参与人的收益都只有3,小于上面的7。

这个结论有些违反直觉。可以如此来理解。虽然参与人2知道的更多了,但是参与人1也能知道“参与人2知道更多这件事”,参与人1对于这条信息的利用,可能能做到比参与人2更完善。

备注

  1. 这⾥将⻉叶斯博弈中对事件的偏好⽤⽀付函数表达;对不确定事件的偏好⽤⽀付函数的期望表达。
  2. 参与⼈的先验概率按照定义可以不同,即使所有参与⼈有共同的先验概率,也有可能和真实的概率
    分布⼤相径庭:但我们在纳什均衡中并不关⼼真实概率,每个参与⼈只需要关⼼⾃⼰的概率,计算
    ⾃⼰的期望最优回应就⾏了。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容