背景
基于好奇的心态参与的百度的强化学习七日打卡活动,良心的免费,坚持听下来,感觉收获满满的,世界冠军科科老师人美心善,课还讲的贼好,缺点是离的太远了,不好追。
课程传送门:课程网址
第一课、强化学习(RL)初印象
1.内容:
- RL 概述、入门路线
- 实践:环境搭建
- 课后作业:搭建GYM环境+PARL环境,把QuickStart 跑起来
2.学习心路:
错过了前半节,中间开始听的,但是科科老师第一节课讲的很基础,举了几个例子,很生动形象,零基础听都没问题。我对强化学习本身就好奇,究竟是如何对模型进行训练,输入输出是什么。
强化学习,是环境与动作的交互。
监督学习输出的是分类结果(是什么),强化学习输出决策结果(怎么做)。
科科老师直接上代码实例,小乌龟从悬崖边边走过的案例。很生动!
且听下回分解!
第二课、基于表格型方法求解RL
1.内容:
- MDP、状态价值、Q表格
- 实践: Sarsa、Q-learning代码解析,解决悬崖问题及其对比
- 课后作业:使用Q-learning和Sarsa解决16宫格迷宫问题。
2.学习心路:
第三课、基于神经网络方法求解RL
1.内容:
- 函数逼近方法
- 实践:DQN代码解析,解决CartPole问题
- 课后作业:使用DQN解决 MountianCar问题
2.学习心路:
第四课、基于策略梯度求解RL
1.内容:
- 策略近似、策略梯度
- 实践:Policy Gradient算法理解、代码解析,解决CartPole问题
- 课后作业:使用Policy Gradient解决Atari的Pong问题
2.学习心路:
第五课、连续动作空间上求解RL
1.内容:
- 连续动作空间、DDPG算法介绍
- PARL DDPG代码解析
- 大作业题目
- RLSchool 飞行器仿真环境介绍
2.学习心路: