强化学习是什么

参考

2013年伦敦的一家人工智能公司 Deep Mind 发表了一篇论文 “Playing Atari with Deep Reinforcement Learning”,一个月后 Google 就收购了这家公司。从那之后,Reinforcement Learning 在人工智能领域就火了起来。2016年AlphaGo赢了与人类的围棋比赛,它也是用的强化学习。

它是指 autonomous agent,例如,人,动物,机器人 或者是 深度网络,通过使奖励达到最大化,来学会在不确定环境中进行定位。

例如,运动。

一个 autonomous agent 要学习如何打 tennis 比赛,它需要考虑这些动作:serves, returns, and volleys,这些行为会影响谁赢谁输。
执行每一个动作都是在一个激励下进行的,就是要赢得比赛。
为了实现比分最大化,它需要遵循一个策略。

那么上面这个过程,怎样模型化呢?

agent 的行为会改变外界环境或者状态,所以 需要将 state 和 action 作为输入, 最高预期回报作为输出。需要在每个动作时都考虑整体的期望回报值。

DeepMind 建立了一个 CNN,不过输出不是分类,而是 maximum reward 的目标值,所以其实是在做回归,而不是分类。
而且没有用 pooling 层,因为图中的物体,人的位置,都很重要,不能被剪掉。

一个 recurrent network 也可以做到,只要问题变为回归,并且每个时间点都包括 action 和 environment state。

还有 Deep Q-Network,它也是在每个 action 和 environment state 下达到最大回报。此外还做了一些改进,加入了经验回放和决斗网络架构。

强化学习和监督式学习区别

监督式学习是根据历史的经验来感知周围的环境,但这个不太靠谱,例如,你车,一周前这条路很 clear,现在这条路很挤,那要怎么学习呢。

而强化学习却是根据 reward 来学习的,agent 的每个动作都会有一个得分。如果遵守了交通规则,限速行驶等,就会给加分,但是如果做了危险的操作,例如加速,就会减分。所以要学会,在当前环境中如何获得最高分,它的每个动作都会改变最终的结果。

通过强化学习,一个 agent 可以在探索和开发之间权衡,并且选择一个最大的回报。

强化学习还包括 goal setting, planning, perception 等课题,可以看文末链接学习更多。

Relevant URLs
Richard Sutton book: https://webdocs.cs.ualberta.ca/~sutto...
Tambet Matiisen post: https://www.nervanasys.com/demystifyi...
Andrej Karpathy post: http://karpathy.github.io/2016/05/31/rl/


历史技术博文链接汇总

我是 不会停的蜗牛 Alice
85后全职主妇
喜欢人工智能,行动派
创造力,思考力,学习力提升修炼进行中
欢迎您的喜欢,关注和评论!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,186评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,858评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,620评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,888评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,009评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,149评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,204评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,956评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,385评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,698评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,863评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,544评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,185评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,899评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,141评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,684评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,750评论 2 351

推荐阅读更多精彩内容