DeepCFR
使用神经网络拟合虚拟遗憾最小化算法
两个神经网络:
虚拟遗憾估值网络:,输入一个状态,输出该状态采用不同动作之后的遗憾值
策略网络:输入一个状态,输出不同动作对应的概率

DeepCFR神经网络更新
神经网络更新方法:执行轮迭代,在每一轮迭代中,对每一个参与人
,进行
次【模拟】,在模拟结束后,用
中的数据训练一个新的神经网络
在轮迭代之后,使用
中的数据训练神经网络
损失函数中中的
表示惩罚随着训练进行而增大,体现为要求越来越严格

MCCFR树搜索策略
MCCFR树搜索策略是一个迭代算法,接受输入【状态,遍历者
,每个参与人的虚拟遗憾网络
,
和
,迭代轮数
】
如果状态是一个叶子节点,则向根节点返回该叶子节点的收益
如果状态是一个机会节点,则依照该机会节点的概率分布选择一个动作向下遍历
如果状态是遍历者
行动的节点,则使用
预测该节点的动作概率分布,然后依次遍历每一个动作,得到每个动作的价值,并计算每个动作的后悔值,把【状态
,迭代轮数
,每个动作的后悔值
】存入
,向根节点返回每个动作的价值的加权之和
如果状态h是其他玩家行动的节点,则使用预测该节点的动作概率分布
,把【状态
,迭代轮数
,
】存入
,并依照该概率分布选择一个动作向下执行