CS231N Lecture14: Reinforcement Learning

强化学习:Agent与Environment之间交互,Agent发起一个Action,环境会给出一个reward。目标是如何执行action才能将reward最大化。

1. Markov Decision Process

是强化学习的数学基础,马尔可夫特性:目前的状态完全刻画世界的状态

其中包含S为状态集,A是action集,R是给定(state, action)对后reward的分布,P是转移概率(例如从给定的状态action对转移到下一个state的分布),y是discount factor表示了reward的重要程度。

马尔可夫决策过程的工作原理为:

首先有初始的状态分布p(s0),在t=0时,先从初始状态分布中采样一些初始状态。接着Agent选择一个action,然后环境给出一个reward并且采样下一个状态,接着Agent收到reward和下一个时刻的状态。目标就是找到一个函数能使得reward求和最大。

问题:如何处理随机性(例如初始状态,转移概率)?

问题:如何衡量state的好坏和state-action对的好坏?使用value function和Q-value function

如何计算最优的Q-value function

使用Bellman Equation贝尔曼方程,也被称作是动态规划方程(Dynamic Programming Equation),这种方法的问题在于不可扩展,需要对每个(state-action)对计算Q(s, a)

解决方法:Q-learning,使用一个function approximator来估计action-value function。

使用function approximator来近似计算

网络结构:

输入是过去四帧图像,输出是一个向量,比如有四个action的话,输出就是四维向量,代表每个动作的Q-value

Experience Replay:

问题:从批次的连续样本中学习是有问题的---1. 样本是相关的,学习效率低下 2. Q-network的参数决定了下一个训练样本(例如,如果最大的action是向左移动,那么训练样本将由左侧的样本控制),会导致错误的反馈循环。

解决这些问题的方法是使用experience replay,更新replay memory table of transitions(st, at,rt, st+1),同时训练的时候使用随机的minibatches of transitions from the replay memory,而不是使用连续的样本。


算法

(1)首先初始化replay memory,Q-network。(2)接着玩M次完整的游戏,这是训练集。在每个episode的开始都初始化state(starting game screen pixels,开始游戏的画面)。(3)接着对于每个时刻,以一个很小的概率随机选择一个action,或者根据当前的policy贪心的选择一个action。(4)接着执行action之后,得到了s(t+1) = st, at, x(t+1),将其保存在replay memory中。(5)接下来是experience replay阶段,采样然后这行BP

2. Policy Gradients

Q-function很复杂,如果有很多个状态就很难计算啦。

Policy Gradients

定义一组policies,然后选择最优的。使用Reinforce algorithm

trajectory轨迹



如果reward高,就推高概率,如果reward低,就减少概率。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容