p371 - p397
今天最后一天啦
话不多说 开始last chapter第16章
第16章 强化学习
16.1 任务与奖赏
种瓜?在过程中我们做什么,并不能立即获得最终奖赏,仅能得到一个当前反馈。我们需要多次种瓜,不断摸索,才能总结出较好的种瓜策略。
强化学习任务四元组 E = <X,A,P,R>
X:状态
A:动作
P:条件转移概率: X x A x X - > R
R:奖赏 : X x A x X -> R
机器要做的事通过在环境中不断尝试而学得一个策略,根据这个策略,输入状态x能得到接下来的动作a。 a=π(x)。
策略有两种表示方法,
一种是直接表示为函数π:X->A,
另一种是概率表示π:XxA->R
策略的优劣取决于长期执行这一策略后得到的累积奖赏。
常用的有:T步累积奖赏、γ折扣累计奖赏。
强化学习 vs 监督学习
若将强化学习中的状态对应为监督学习的示例
“动作”对应为“标记”
那么强化学习中的策略实际上就相当于监督学习中的分类器。
因此强化学习在某种意义上可看做具有“延迟标记信息”的监督学习问题。
16.2 K-摇臂赌博机
16.2.1 探索与利用
强化学习与监督学习的显著不同:
机器通过尝试来发现各个动作产生的结果,而没有训练数据告诉机器应当做哪个动作
欲最大化奖赏要考虑两个方面:
1)要知道每个动作带来的奖赏 :探索
2)执行奖赏最大的动作:利用
单步强化学习任务对应了一个理论模型:K-摇臂赌博机
若仅为探索每个摇臂的期望奖赏:仅探索
若仅为执行奖赏最大的动作:仅利用
探索和利用是矛盾的:探索-利用窘境
16.2.2 ε-贪心
基于一个概率来对探索和利用进行折中
每次以ε的概率来进行探索,以1-ε来利用
算法过程伪码 p375
16.2.3 Softmax
Softmax算法基于当前已知的摇臂平均奖赏来对探索和利用进行折中。
若各摇臂的平均奖赏相当,则选取各arm的概率也相当
若某些arm的平均奖赏明显高,则选他们的概率也会更高
概率分配基于Boltzmann分布 p376式16.4
定义了一个“温度”,温度τ越小则平均奖赏高的摇臂选取的概率越高。
τ趋近于0算法趋于仅利用
τ趋近于无穷大算法趋于仅探索
过程伪码见p376 图16.5
总的来说K-摇臂赌博机有局限,因为没有考虑强化学习任务马尔科夫决策过程的结构。
16.3 有模型学习
如果四元组E=<X,A,P,R>一致,这样的情形称为“模型已知”。
在已知模型的环境中学习称为“有模型学习”。
16.3.1 策略评估
模型已知,对任意策略π能估计出策略带来的期望累积策略。
基于T步累计奖赏的策略评估算法 p379图16.7
16.3.2 策略改进
对策略累积奖赏进行评估后,若发现非最优则希望对其改进,理想的是最大化奖赏。
利用p380 最优Bellman等式:
将策略选择的动作改变为当前最优的动作。
16.3.3 策略迭代与值迭代
将16.3.1 和 16.3.2结合起来即可得到求解最优解的方法。
从一个初始策略(如随机策略)出发,先进行策略评估,然后改进策略,评估改进策略,再进一步改进...不断迭代进行评估与改进,直到策略收敛。
p381 图16.8 基于T步累积奖赏的策略迭代改进算法
p382 图16.9 基于T步累积奖赏的值迭代算法
总的来说,在模型已知时强化学习任务可以归结为动态规划的寻优问题。
16.4 免模型学习
比有模型要困难得多
16.4.1 蒙特卡罗强化学习
p384 图16.10 同策略蒙特卡洛强化学习
p386 图16.11 异策略蒙特卡洛强化学习
16.4.2 时序差分学习
p388 图16.12 Sarsa算法
p388 图16.13 Q-学习算法
16.5 值函数近似
若状态空间不是有限的。
现实生活中所面临的状态空间往往是连续的,有无穷多个状态。
p390 图16.14 线性值函数近似Sarsa算法
16.6 模仿学习
种瓜任务时能得到农业专家的种植过程范例
16.6.1 直接模仿学习
有了专家的决策轨迹数据。
那就可以把专家的状态-动作对抽取出来,构造新的数据集合D。
即把状态作为特征,动作作为标记。
然后根据这个D使用分类或回归算法即可学得新的策略模型。
16.6.2 逆强化学习
设计奖赏函数是很困难的
从人类专家提供的数据反推奖赏函数,这就是“逆强化学习”。
知道状态空间X,动作空间A,专家的决策轨迹数据集D。
逆强化学习的基本思想:
欲使机器做出与范例一致的行为,等价于在某个奖赏函数的环境中求解最优策略,使最优策略所产生的轨迹与范例数据一致。
即:寻找某种奖赏函数使范例数据最优。
p392 图16.15 迭代式逆强化学习算法
尾注
啊啊啊终于看完了/(ㄒoㄒ)/~~
一刷看完这一个月收获还是不少的
但还是感觉任重道远呀
这本书想要啃透怎么还得再刷两遍的感觉
不过确实是一本不错的入门书哎
这一个月坚持的还是不错的
虽然中间还是有几天断了
但总归是一个月看完一遍了
算是养成了一个好习惯吧
接下来要开始一段新的任务了
💪加油