aloml - 简书

发简信

aloml

0
关注
1
粉丝
1
文章
12

字数
0

收获喜欢

IP属地：北京

倒着念

策略梯度(Policy Gradient)
简述强化学习方法主要分为两类，一类是Model-based，另外一种是Model free，如图所示：而Model Free中又包含两种方法，其中一种是基于策略的角度考虑...

5014 0 3

暂无个人介绍