1. 什么是增强学习?
增强学习是一种将环境映射到行为、在此过程中实现最大化目标的学习过程。(Reinforcement Learning is learning what to do——how to map situations to actions——so as to maximize a numerical reward signal)。
2. 与监督学习(supervised)的区别?
监督学习是在给定Correction Answer(也就是我们说的label)下进行训练,如果采用deep-learning的框架,就是一个端到端(end-to-end)的过程。我们是从data中学习到关于model的parameter,然后对test data(new data)进行predict。
增强学习则明显具有交互性,这是一个端到端的网络所不具备的。其次,增强学习要求从已有的经验(situation,state)中进行尝试(try)然后根据reward进行action的修改,最终希望得到一个不错的结果(goal);整个过程是dynamic,相比之下监督学习则具有静态系统的特点。
3. 与无监督学习(unsupervised learning)的区别?
无监督学习的目标是在不给定label的情况下寻找隐藏在数据中的结构,比如常见的聚类。(unsupervised learning is typically about finding structure hidden in collections of unlabeled data)。
增强学习的目标则是maximize a reward signal,而不是去发现数据背后的结构。所以不能简单的把机器学习分为监督学习和无监督学习。
4. 增强学习的独特困难之处?
增强学习中的对象是agent(就像面向对象技术中的object),agent感知环境(situation),做出判断(action),得到相应的回报(reward)。
在这里我们有一个trade-off难题,那就是在explore和exploit之间做平衡。exploit指的是如何根据已有经验得到一个不错的reward,explore指的是如何最大可能的确保未来的action可以得到一个不错的reward。(The agent has to exploit what it is already experienced in order to obtain reward, but it also has to explore in order to make better action selections in the future)
此外增强学习的一个显著特征是consider whole problem of a goal-directed agent interacting with an uncertain environment。之前的机器学习则相对关注的是一些特定的子问题,然后希望将子问题解决后能在大问题上取得不错的结果,这与增强学习一开始从整个问题考虑出发存在不同。