一、主要事件
1. 百战成名
- 2015年10月,Google 的 AlphaGo (阿尔法围棋)在与欧洲冠军樊辉的对弈中,以 5:0 完胜;樊辉表示,AlphaGo 的可怕之处在于 “从不犯错”。
- 2016年3月,AlphaGo与韩国顶级职业围棋选手李世石围棋对战,4:1 取胜,第一次战胜顶级职业选手。
- 2016年12月29日,AlphaGo 化名 Master,“踢馆” 弈城网和野狐网。
- 2017年1月3日,AlphaGo 战胜 “当今围棋第一人” 柯洁。
- 2017年1月4日,AlphaGo 战胜第 59 位世界冠军,并宣布它就是 Master。
意义:证明深度强化学习是一种非常有效的、解决问题的方法,促使弱人工智能走向强人工智能。
2. 发展历史
- 1956 年,一批有远见卓识的年轻科学家在一起聚会,即达特茅斯会议,探讨了 用机器模拟只能的一些列有关问题,并首次提出 “人工智能”,标志着者们新兴学科的诞生。
1)人工智能的诞生(1943-1956) - 1943-1946年,冯诺依曼提出计算机原理;
- 1950年,图灵发表了一篇跨时代的论文,并提出著名的 “图灵测试”。
- 1956年,达特茅斯会议,人工智能诞生;
2)早期发展热潮(1950-1970年)
- 符号主义;
- 早期推理系统;
- 早期神经网络(联结主义);
- 专家系统,智能计算机系统,包含利用人类专家知识,处理该领域内的问题;
3)第二次发展热潮(1980-2000年)
- 统计学派,‘AI之冬’ 后,统计学派代替专家系统;
- 机器学习,专门研究计算机如何模拟或实现人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构使之不断改善自身性能。
神经网络(联结主义重获新生),神经网络用于模式识别等任务。
3)第三次发展热潮(2006年后)
- 大数据广泛应用,对无法在一定时间范围内,用常规软件工具进行捕捉,管理和处理的数据集合,使用新处理模式提供更强的决策力,洞察力和优化能力。
- 深度学习,通过组合低层特征,形成更加抽象的高层,表示属性类别或特征,以发现数据的分布式特征表示;新的应用有机器视觉、语音识别、机器翻译、强化学习、迁移学习、生成对抗网络。
- (非深度)机器学习;
- AlphaGo 为标注的大众传播。
什么是深度强化学习
- 定义
- 利用深度学习的结构执行强化学习的操作。
- 深度学习:利用一个多层神经网络(多层的非线性函数),实现对数据分布及函数模型的拟合。
- 强化学习:
优势
结合深度学习和强化学习两者的优点;
深度学习善于对已有数据做非线性拟合;
强化学习善于对未知环境做决策;作用
解决连续决策的问题;性质
可以在复杂的、不确定的环境中,学习如何实现我们设定的目标;应用
可应用于几乎所有需要做一系列决定的问题,如棋牌游戏,视频游戏,商品定价等。
强化学习的演进
- 早期强化学习的两条主线
- 试错法:尝试、出错、再尝试;
- 控制优化问题:采用值函数求解,以及动态规划的方式求解。
二者相互独立。
双线合并
时序差分法,将两条线的差异缩小。也就是,将时间进行时间片分割,将两个问题联系起来。控制优化的研究思路
- 1950s 早期,控制优化问题被描述为一个通过控制器来最小化控制行为代价的问题。
- 1950s 中期,Richard Bellman 提出了汉密尔顿和雅可比理论,很好的解决了这个控制优化问题。用动态系统的状态和“优化返回函数” 构建一个函数等式——贝尔曼方程。这一解决方法,也就是动态规划方法。
- 试错法的研究思路
- 来源于动物行为的研究:“在同一个环境状态中,与动物的意愿密切相关,并且能够满足动物意愿的行为回应,和当前的环境状态更加紧密切相关,当该环境状态再一次发生的时候,该行为回应也极有可能发生,反之,那些让动物的意愿不太舒服的行为反应,和状态的联系就会变弱,当环境再次出现的时候,该行为回应不太可能会发生。”
- 1963年,SteLLA 系统已经出现了描述外界环境状态的环境模型。
- 1989年,时序查分算法和优化控制理论相结合提出 Q学习(Q-learning)。
- 1994年,监督学习被用于解决强化学习的问题。
强化学习和机器学习的差异
机器学习的思想:输入一个状态 s,即可映射到一个动作 a。
强化学习的思想:输入一个状态 s,利用这些映射的动作,得到一系列的反馈奖励值,然后,选取最大奖励值的动作。
也就是说,强化学习的选取动作还未结束,等到动作过后的奖励才结束。强化学习的组成
1)策略:决定在某一时刻做出的行为,即从观测状态到执行动作的映射;
2)奖励函数:强化学习的目标,可以此计算采取行动后的状态所对应的满意度;
3)值函数:相对于奖励函数这种即时的衡量方式,值函数是一种长期的衡量方式,当前到未来某一时刻的累计奖励;
4)环境模型:对智能体和环境的状态进行建模。
关系:指导奖励函数,才能计算值函数。求解问题中,关心的是值函数而非奖励函数;奖励函数可轻松通过执行动作得到解,而值函数更难获得。深度学习
- 深度学习,即深度神经网络。深度学习是利用学习神经网络,并利用多层抽象来解决模式识别问题的技术。
- 1980s,由于计算成本和数据量的限制,大多数神经网络只有一层,随着硬件设备和图形计算模块的发展,计算机性能发幅度提升,深度学习飞速发展。
- 深度学习已经被广泛应用,比如,人脸识别(Facebook 精确度可达 97.25%,人工识别 97.53%),数据中心能耗优化(Google 降低了 40% 的能耗)。
- 深度学习框架:深度神经网络(DNN)、卷积神经网络(CNN)和循环神经网络(RNN)。
深度强化学习
深度强化学习的简单理解:在强化学习中使用深度学习这个万能的工具来进行函数/模型的拟合。
三、深度强化学习的学习策略
- 推荐的学习资料
- 1998年,《Reinforcement Learning: An Introduction》;
- DeepMind 团队发表的论文,比如,深度Q学习到双Q学习;
- 从确定性策略梯度算法(DDPG)到A3C算法。
实践(三个训练平台)
Gym,Universe 来源于 OpenAI;
DeepMind 来源于 Google。
推荐使用 FlappyBird 游戏作为深度强化学习的入门应用实例。-
强化学习算法分类