第一章 深度强化学习概览

一、主要事件

1. 百战成名
  • 2015年10月,Google 的 AlphaGo (阿尔法围棋)在与欧洲冠军樊辉的对弈中,以 5:0 完胜;樊辉表示,AlphaGo 的可怕之处在于 “从不犯错”。
  • 2016年3月,AlphaGo与韩国顶级职业围棋选手李世石围棋对战,4:1 取胜,第一次战胜顶级职业选手。
  • 2016年12月29日,AlphaGo 化名 Master,“踢馆” 弈城网和野狐网。
  • 2017年1月3日,AlphaGo 战胜 “当今围棋第一人” 柯洁。
  • 2017年1月4日,AlphaGo 战胜第 59 位世界冠军,并宣布它就是 Master。
    意义:证明深度强化学习是一种非常有效的、解决问题的方法,促使弱人工智能走向强人工智能。
2. 发展历史
  • 1956 年,一批有远见卓识的年轻科学家在一起聚会,即达特茅斯会议,探讨了 用机器模拟只能的一些列有关问题,并首次提出 “人工智能”,标志着者们新兴学科的诞生。
    1)人工智能的诞生(1943-1956)
  • 1943-1946年,冯诺依曼提出计算机原理;
  • 1950年,图灵发表了一篇跨时代的论文,并提出著名的 “图灵测试”。
  • 1956年,达特茅斯会议,人工智能诞生;

2)早期发展热潮(1950-1970年)

  • 符号主义;
  • 早期推理系统;
  • 早期神经网络(联结主义);
  • 专家系统,智能计算机系统,包含利用人类专家知识,处理该领域内的问题;

3)第二次发展热潮(1980-2000年)

  • 统计学派,‘AI之冬’ 后,统计学派代替专家系统;
  • 机器学习,专门研究计算机如何模拟或实现人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构使之不断改善自身性能。
    神经网络(联结主义重获新生),神经网络用于模式识别等任务。

3)第三次发展热潮(2006年后)

  • 大数据广泛应用,对无法在一定时间范围内,用常规软件工具进行捕捉,管理和处理的数据集合,使用新处理模式提供更强的决策力,洞察力和优化能力。
  • 深度学习,通过组合低层特征,形成更加抽象的高层,表示属性类别或特征,以发现数据的分布式特征表示;新的应用有机器视觉、语音识别、机器翻译、强化学习、迁移学习、生成对抗网络。
  • (非深度)机器学习;
  • AlphaGo 为标注的大众传播。

什么是深度强化学习

  1. 定义
  • 利用深度学习的结构执行强化学习的操作。
  • 深度学习:利用一个多层神经网络(多层的非线性函数),实现对数据分布及函数模型的拟合。
  • 强化学习:
  1. 优势
    结合深度学习和强化学习两者的优点;
    深度学习善于对已有数据做非线性拟合;
    强化学习善于对未知环境做决策;

  2. 作用
    解决连续决策的问题;

  3. 性质
    可以在复杂的、不确定的环境中,学习如何实现我们设定的目标;

  4. 应用
    可应用于几乎所有需要做一系列决定的问题,如棋牌游戏,视频游戏,商品定价等。

强化学习的演进

  1. 早期强化学习的两条主线
  • 试错法:尝试、出错、再尝试;
  • 控制优化问题:采用值函数求解,以及动态规划的方式求解。
    二者相互独立。
  1. 双线合并
    时序差分法,将两条线的差异缩小。也就是,将时间进行时间片分割,将两个问题联系起来。

  2. 控制优化的研究思路

  • 1950s 早期,控制优化问题被描述为一个通过控制器来最小化控制行为代价的问题。
  • 1950s 中期,Richard Bellman 提出了汉密尔顿和雅可比理论,很好的解决了这个控制优化问题。用动态系统的状态和“优化返回函数” 构建一个函数等式——贝尔曼方程。这一解决方法,也就是动态规划方法。
  1. 试错法的研究思路
  • 来源于动物行为的研究:“在同一个环境状态中,与动物的意愿密切相关,并且能够满足动物意愿的行为回应,和当前的环境状态更加紧密切相关,当该环境状态再一次发生的时候,该行为回应也极有可能发生,反之,那些让动物的意愿不太舒服的行为反应,和状态的联系就会变弱,当环境再次出现的时候,该行为回应不太可能会发生。”
  • 1963年,SteLLA 系统已经出现了描述外界环境状态的环境模型。
  • 1989年,时序查分算法和优化控制理论相结合提出 Q学习(Q-learning)。
  • 1994年,监督学习被用于解决强化学习的问题。
  1. 强化学习和机器学习的差异
    机器学习的思想:输入一个状态 s,即可映射到一个动作 a。
    强化学习的思想:输入一个状态 s,利用这些映射的动作,得到一系列的反馈奖励值,然后,选取最大奖励值的动作。
    也就是说,强化学习的选取动作还未结束,等到动作过后的奖励才结束。

  2. 强化学习的组成
    1)策略:决定在某一时刻做出的行为,即从观测状态到执行动作的映射;
    2)奖励函数:强化学习的目标,可以此计算采取行动后的状态所对应的满意度;
    3)值函数:相对于奖励函数这种即时的衡量方式,值函数是一种长期的衡量方式,当前到未来某一时刻的累计奖励;
    4)环境模型:对智能体和环境的状态进行建模。
    关系:指导奖励函数,才能计算值函数。求解问题中,关心的是值函数而非奖励函数;奖励函数可轻松通过执行动作得到解,而值函数更难获得。

  3. 深度学习

  • 深度学习,即深度神经网络。深度学习是利用学习神经网络,并利用多层抽象来解决模式识别问题的技术。
  • 1980s,由于计算成本和数据量的限制,大多数神经网络只有一层,随着硬件设备和图形计算模块的发展,计算机性能发幅度提升,深度学习飞速发展。
  • 深度学习已经被广泛应用,比如,人脸识别(Facebook 精确度可达 97.25%,人工识别 97.53%),数据中心能耗优化(Google 降低了 40% 的能耗)。
  • 深度学习框架:深度神经网络(DNN)、卷积神经网络(CNN)和循环神经网络(RNN)。

深度强化学习

深度强化学习的简单理解:在强化学习中使用深度学习这个万能的工具来进行函数/模型的拟合。

强化学习算法框架

三、深度强化学习的学习策略

  1. 推荐的学习资料
  • 1998年,《Reinforcement Learning: An Introduction》;
  • DeepMind 团队发表的论文,比如,深度Q学习到双Q学习;
  • 从确定性策略梯度算法(DDPG)到A3C算法。
  1. 实践(三个训练平台)
    Gym,Universe 来源于 OpenAI;
    DeepMind 来源于 Google。
    推荐使用 FlappyBird 游戏作为深度强化学习的入门应用实例。

  2. 强化学习算法分类


    强化学习算法分类
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350