2
0
写了 134970 字,被 169 人关注,获得了 109 个喜欢
强化学习基础篇(二)马尔科夫决策过程(MDP) 上一篇中主要介绍了强化学习的一些主要组成要素(智能体,环境,奖励,状态以及动作等),以及介绍了强化学习的相关概念。本节主要介绍...
二、 卷积网络和训练 接上回 处理环境图片。python几处值得关注的用法(连接) 示例用卷积网络来训练动作输出: 还是比较直白的: Conv 3通道 16通道 Con...
写了 9144 字,被 8 人关注,获得了 22 个喜欢