059345ad561a - 简书

发简信

059345ad561a

13
关注
1
粉丝
0
文章
0

字数
0

收获喜欢

IP属地：北京

059345ad561a

博主的例子我觉得举得好，不像很多其他例子上来就是走格子。但是走格子游戏涉及到环境和智能体本身的设计。

RL里面必然会提及智能体本身的行为，比如Q-learning 的伪算法当中必然会提及“从S中选择一个行为a，基于某种策略，例如贪婪算法”
但是很多Q-learning 教程都将“选择行为”这个事情割裂开来，只讲 Q-learning 本身，至于怎么进行“选择”这个动作一般不涉及。

所以如果不了解智能体的操作手段，看到这里要去实践就会很吃力。
比如常见的用 gym 库来设计智能小车，如果你不知道怎么操纵小车，根本没办法进行下面的操作。

博主的这个例子由于结构简单，不太需要了解智能体本身的操作，可以专注在q-learning 算法本身，这一点不错的。

但是另一方面，博主的 Q-learning 公式有些问题。博主给出的应该是Q-learning的前身，不是Q-learning。比较重要的地方有两处遗漏，一处是学习率 alpha，它决定了算法是更注重当前利益还是长远利益；另一处是尾部的 - Q(s,a)

完整公式：
Q(s, a) <-- Q(s, a) + alpha * ( r + max{Q(S', a') | a'} - Q(s,a))
也就是说，我要把 “当前效益r” 加上 “所有下一步状态行为的最大Q值” 并减去 “当前Q值”之后，还要乘上一个学习率，再加上当前 Q 值，才是最终更新值。

用博主的算法，相当于 alpha = 1，这个时候运行次数足够多就能得到博主的 Q-table；如果 alpha = 0.1，得到的值就不一样了

理解Q-learning，一篇文章就够了
1、Q-learning例子假设有这样的房间如果将房间表示成点，然后用房间之间的连通关系表示成线，如下图所示：这就是房间对应的图。我们首先将agent（机器人）处于任何...

文哥的学习日记
36383 7 32
059345ad561a

摄影
伩天游编，270020 篇文章，3002146 人关注

《摄影》专题介绍用文字记录美好生活用镜头捕捉精彩瞬间摄影，发现生活中的美！本专题收录文章方向： 1.风光摄影、人像摄影、记录摄影、艺术摄影、画意摄影、商业摄影、水墨摄影等； 2.摄影技巧，后期技巧，摄影器材测评等； 3.手机拍摄、专业摄影器材拍摄均可； 4.文章须为原创，不得抄袭，如有抄袭行为，后果自负。投稿须知详见：《摄影》专题投稿须知 https://www.jianshu.com/p/3dcbd7ac31f4 专题主编：伩天游 https://www.jianshu.com/u/f5112cf64af7

059345ad561a

@IT·互联网
若锦编，64325 篇文章，2652205 人关注

Hi，很高兴在@IT·互联网专题遇见你。收录范围：收录IT&互联网行业观察与思考，数码产品极客体验分析等类型文章投稿须知：https://www.jianshu.com/p/4edc76104c27 专题主编：@若锦 https://www.jianshu.com/u/e4c63b354a77 官方社群：可联系添加 @若锦加入专题官方社群交流、学习，添加时备注简书ID。
059345ad561a

程序员
小彤花园编，96319 篇文章，1664156 人关注

如果你是程序员，或者有一颗喜欢写程序的心，喜欢分享技术干货、项目经验、程序员日常囧事等等，欢迎投稿《程序员》专题。专题主编：小彤花园 http://www.jianshu.com/users/4a4eb4feee62/ 【程序员】专题拒稿指北：http://www.jianshu.com/p/7c8b33b5f63b 投稿须知： 1.收录相关技术文章，但不限于技术，也可以是项目经验类的文章和程序员日常。 2.文章內不得有任何推广信息。包括但不限于公众号、微博、微信，更不得在通过投稿后再修改文章加入推广信息。你可以将这些推广以及个人信息放在个人主页介绍里。 3.字数极少，段落混乱，大段代码没有放到代码框的文章不收录 4.不相关的内容不收录，请确认文章内容和本专题相关目前针对优质作者及爱好者，开设了官方程序员微信群，希望加入请发简信给主编小彤花园索取个人微信，主编会将你加入到【程序员】微信群，分享内容，收获知识。添加微信时备注昵称。
059345ad561a

自然科普
刷牙喝凉白开编，7404 篇文章，2027891 人关注

自然科普专题收录与推荐标准请参考: https://www.jianshu.com/p/e38bf5116797 如因为一些可改动的问题被拒稿，请在修改后简信联系主编：刷牙喝凉白开，主编审核后将收录符合要求的文章；如在了解收录标准后仍对拒稿有异议，也可简信联系主编。《自然科普月刊》将恢复发刊，欢迎大家踊跃投稿，投稿可发链接给主编。专题长期招募副编。副编招募信息见下： https://www.jianshu.com/p/9d116265ccc1
059345ad561a