登录注册写文章

DeepCFR总结

神奇的托尔巴拉德

DeepCFR总结

DeepCFR

使用神经网络拟合虚拟遗憾最小化算法

两个神经网络：

虚拟遗憾估值网络： $V:I\rightarrow R^{\vert A \vert }$ ，输入一个状态，输出该状态采用不同动作之后的遗憾值

策略网络： $\Pi :I\rightarrow R^{\vert A \vert }$ 输入一个状态，输出不同动作对应的概率

DeepCFR神经网络更新

神经网络更新方法：执行 $T$ 轮迭代，在每一轮迭代中，对每一个参与人 $p$ ，进行 $K$ 次【模拟】，在模拟结束后，用 $M_{V,p}$ 中的数据训练一个新的神经网络 $V_{p}^t$

在 $T$ 轮迭代之后，使用 $M_{\Pi }$ 中的数据训练神经网络 $\Pi$

损失函数中 $\dot{t} \sum\nolimits_{a}$ 中的 $\dot{t}$ 表示惩罚随着训练进行而增大，体现为要求越来越严格

MCCFR树搜索策略

MCCFR树搜索策略是一个迭代算法，接受输入【状态 $h$ ，遍历者 $p$ ，每个参与人的虚拟遗憾网络 $V_{p}^{t-1}$ ， $M_{V,p}$ 和 $M_{\Pi }$ ，迭代轮数 $t$ 】

如果状态 $h$ 是一个叶子节点，则向根节点返回该叶子节点的收益

如果状态 $h$ 是一个机会节点，则依照该机会节点的概率分布选择一个动作向下遍历

如果状态 $h$ 是遍历者 $p$ 行动的节点，则使用 $V_{p}^{t-1}$ 预测该节点的动作概率分布，然后依次遍历每一个动作，得到每个动作的价值，并计算每个动作的后悔值，把【状态 $h$ ，迭代轮数 $t$ ，每个动作的后悔值 $\tilde{r} (I,a)$ 】存入 $M_{V,p}$ ，向根节点返回每个动作的价值的加权之和

如果状态h是其他玩家行动的节点，则使用 $V_{-p}^{t-1}$ 预测该节点的动作概率分布 $\sigma ^{t}(I)$ ，把【状态 $h$ ，迭代轮数 $t$ ， $\sigma ^{t}(I)$ 】存入 $M_{\Pi }$ ，并依照该概率分布选择一个动作向下执行

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

浅谈自然语言处理基础（上）
本系列第三篇，承接前面的《浅谈机器学习基础》和《浅谈深度学习基础》。自然语言处理绪论什么是自然语言处理？自然...
我偏笑_NSNirvana阅读 18,367评论 2赞 68
学习笔记TF035:实现基于LSTM语言模型
神经结构进步、GPU深度学习训练效率突破。RNN，时间序列数据有效，每个神经元通过内部组件保存输入信息。卷积神经...
利炳根阅读 10,258评论 0赞 7

TensorFlow4：深层神经网络
前面介绍了TensorFlow的主要概念，并给出了一个完整的TensorFlow程序来训练神经网络.这一章将介绍：...
勇于自信阅读 4,204评论 0赞 1
（十三）从零开始学人工智能-强化学习:值函数近似和策略梯度
强化学习–值函数近似和策略梯度文章目录强化学习--值函数近似和策略梯度 1. 值函数近似 1.1 线性函数近似...
小花技术大本营阅读 3,335评论 0赞 0
TensorFlow 实战Google深度学习框架（第2版）第九章读书笔记
第九章：自然语言处理 * 9.1语言模型的背景知识 * 9.1.1语言模型简介 * 9.1.2语言模型的评...
emm_simon阅读 3,218评论 0赞 0

友情链接更多精彩内容

赞1赞

赞赏

手机看全文