乐乐小宝贝 - 简书

发简信

乐乐小宝贝

25
关注
0
粉丝
3
文章
5006

字数
3

收获喜欢
0

总资产

IP属地：重庆

RL Review part1
1. Basic Word 累计折扣回报：U(t) = r(t) * gamma * r(t+1) + gamma^2 * r(t+2) + ....

1917 0 0
RL-DQN Coding Problem
经验回放类采样一个batch,zip(*)用于将元组解压拆分: DQN的epsilon采用e-greedy方式进行，需要设置epsilon的衰减...

0.1 3089 0 1

DQN算法实践之速通超级马里奥
作为强化学习(Reinforce Learning,RL)的初学者，常常想将RL的理论应用于实际环境，以超级马里奥为例，当看着自己训练的AI...

0.1 6547 0 2

暂无个人介绍