Q Learn 也是一个决策过程,,Q表使用:
Q表的update运行逻辑(没有懂细节)
R为到此时获取到的奖励值,例如棒棒糖。。r 例如0.9
S2 时刻的决策需要等到新的Q(s1,a2)计算完后
具体的算法逻辑
和现实中一样,,对很远的奖励,,人们期望不一样,都会打折扣。。
Q Learn 也是一个决策过程,,Q表使用:
Q表的update运行逻辑(没有懂细节)
R为到此时获取到的奖励值,例如棒棒糖。。r 例如0.9
S2 时刻的决策需要等到新的Q(s1,a2)计算完后
具体的算法逻辑
和现实中一样,,对很远的奖励,,人们期望不一样,都会打折扣。。