DeepCFR总结

DeepCFR

使用神经网络拟合虚拟遗憾最小化算法

两个神经网络:

虚拟遗憾估值网络:V:I\rightarrow R^{\vert A \vert },输入一个状态,输出该状态采用不同动作之后的遗憾值

策略网络:\Pi :I\rightarrow R^{\vert A \vert }输入一个状态,输出不同动作对应的概率

DeepCFR神经网络更新

神经网络更新方法:执行T轮迭代,在每一轮迭代中,对每一个参与人p,进行K次【模拟】,在模拟结束后,用M_{V,p} 中的数据训练一个新的神经网络V_{p}^t

T轮迭代之后,使用M_{\Pi }中的数据训练神经网络\Pi

损失函数中\dot{t} \sum\nolimits_{a}中的\dot{t} 表示惩罚随着训练进行而增大,体现为要求越来越严格

MCCFR树搜索策略

MCCFR树搜索策略是一个迭代算法,接受输入【状态h,遍历者p,每个参与人的虚拟遗憾网络V_{p}^{t-1}M_{V,p}M_{\Pi },迭代轮数t

如果状态h是一个叶子节点,则向根节点返回该叶子节点的收益

如果状态h是一个机会节点,则依照该机会节点的概率分布选择一个动作向下遍历

如果状态h是遍历者p行动的节点,则使用V_{p}^{t-1}预测该节点的动作概率分布,然后依次遍历每一个动作,得到每个动作的价值,并计算每个动作的后悔值,把【状态h,迭代轮数t,每个动作的后悔值\tilde{r} (I,a)】存入M_{V,p},向根节点返回每个动作的价值的加权之和

如果状态h是其他玩家行动的节点,则使用V_{-p}^{t-1}预测该节点的动作概率分布\sigma ^{t}(I),把【状态h,迭代轮数t\sigma ^{t}(I)】存入M_{\Pi },并依照该概率分布选择一个动作向下执行

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容