20170904——丁酉年七月十四

之前一个月半月,学习基本处于停滞状态。现在心态也调整好了,事情也办完了。回过头来发现RL的很多理论方法,以前只是知道怎么写代码,但是并不清楚背后的原理。无论从数学、还是从自然规律,还是需要建立一个体系,所以打算重新精读这些文章。

精读论文:

1. J.Schulman 2015Trust Region Policy Optimization

2. D.Silver 2014  Deterministic Policy Gradient Algorithms

*3. S.Levine 2014 Learning Complex Neural Network Policies with Trajectory Optimization

完成任务:

1. 深入理解1、2两篇论文,并形成笔记;

2. 有时间的话选读论文 3

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容