强化学习通过自己进行学习,属于无监督学习,计算机在过程中不断尝试和摸索来尝试学习。这里有一位评审员对你的行为进行打分。我们正确行为会的得到高分,可以暂时这么理解,所有强化学习具有分数导向性。
在监督学习中已经有了数据和数据对应标签,强化学习需要一次一次地尝试获取数据和其对应的标签。
强化学习中包含许多算法
基于价值选行为的算法
- Q learning (基于表格)
- Sarsa
- Deep Q Network (基于神经网络)
基于选行为
Policy Gradients
想象环境
Model based RL
为什么学习强化学习
一切都是因深度学习,强化学习也是因为深度学习出现才有质的飞跃。强化学习是数据小或者我们也没有经验的事物上采用强化学习可以得到好的结果。
需要了解哪些 python 库
- Numpy 数据处理
- Pandas 数据处理
- Matplotlib 数据开可视化
- Tkinter 编写模拟环境
- Tensorflow
- OpenAI gym 提供了很多现成的模拟环境