第一节

第一节上

1.什么是强化学习

2.强化学习和监督学习对比?

强化学习是序列数据,不是独立iid的
Agent的行为会影响接受到的数据
需要一个权衡,需要探索
没有一个监督者,不能立刻得到反馈。延迟奖励

3.举例强化学习。

Pong。

4.深度学习+强化学习

5.为什么RL works?

计算力;端到端的训练

第一节下

1.Agent和环境交互

2.奖励

3.序列决策

4.RL agent组成部分

决策;价值函数;模型
决策分为两种:1.随机决策,输出概率2.决定好的决策,输出最大概率
价值函数
模型

5.马尔科夫决策过程

6.Exploration and exploitation

tradeoff
听不懂啊- -

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。