写文章
注册
登录
首页
下载App
会员
IT技术
发简信
aloml
0
关注
1
粉丝
1
文章
12
字数
0
收获喜欢
IP属地:北京
关注的专题/文集/连载 5
喜欢的文章 1
倒着念
策略梯度(Policy Gradient)
简述 强化学习方法主要分为两类,一类是Model-based,另外一种是Model free,如图所示: 而Model Free中又包含两种方法,其中一种是基于策略的角度考虑...
5014
0
3
暂无个人介绍
他关注的专题/文集/连载
他喜欢的文章