之前一个月半月,学习基本处于停滞状态。现在心态也调整好了,事情也办完了。回过头来发现RL的很多理论方法,以前只是知道怎么写代码,但是并不清楚背后的原理。无论从数学、还是从自然规律,还是需要建立一个体系,所以打算重新精读这些文章。
精读论文:
1. J.Schulman 2015Trust Region Policy Optimization
2. D.Silver 2014 Deterministic Policy Gradient Algorithms
*3. S.Levine 2014 Learning Complex Neural Network Policies with Trajectory Optimization
完成任务:
1. 深入理解1、2两篇论文,并形成笔记;
2. 有时间的话选读论文 3