强化学习:有限马尔科夫过程

FMDs

FMDs(finite Markov decision processes):对在一种连续性过程中不断做出决策的形式化,也是强化学习问题理想的数学形式化:即当前的action产生的效果不仅影响即刻奖励,而且还会决定后续的states,进而影响未来的奖励。因此MDPs需要对即刻奖励延迟奖励tradeoff

3.1 Agent-Encvironment Interface


如图,假设时间是离散的,
t=0,2,3,.....
在每一个时间点,agent接受来自于environment产生的state
A_t \in A(s)
;以此为条件选择一个action,
A_t \in \mathcal A(s)
,动作的结果是产生一个数值Reward
R_{t+1}\in\mathcal R
,反馈给agent,并出现新的state
S_{t+1}

这样的一个MDPs产生的一系列称为一个trajectory
S_0,A_0,R_1,S_1,A_1,R_2,S_2,A_2,R_3,.....\tag{3.1}

之所以称为有限马尔科夫过程,是因为状态集合和动作集合、奖励集合都是有限的。
上述过程定义了一个概率分布:


函数
p
给出的概率完全描述了有限MDPs。
Markov property:当前的state对未来产生影响的假设。

有了函数p,即可计算:



通常,actions可以视为我们需要学习如何去做的任意决策,states可以视为任何对学习做决策有帮助的信息。

通常,不能被agent以任何形式改变的部分都视为属于Environment。比如Reward总是被视为属于环境部分,因为Reward的计算在不能被agent任意改变。总之,环境-代理的边界是代理的绝对控制极限。

归纳而言,MDPs抽象为三种信号在agentenvironment之间反复传播的模型:

  1. 代理agent做出的选择:即动作
  2. 代理做出选择的依据:即外部传来的状态
  3. 代理反复训练的目标:即rewards

3.2 Goals and Rewards

agent的目标是最大化累计奖励(cumulative reward); 用奖励作为目标是强化学习的最大特征之一。

3.3 Returns and Episodes

如何把学习目标:最大化奖励做到呢?这里,形式化的定义是必不可少的,如果时间t以后得到的一系列奖励记为R_{t+1},R_{t+2},R_{t+3}.....的话,t之后我们期望得到的回报记为G_t,这是关于一系列奖励的一个函数,简单看作全部相加的过程的话,我们得到:


这里的
T
是最后的时间点。
这里,任务可以分为

  • episodic task:如迷宫游戏;每一个episode的结束状态称为terminal state,很多个episode组成这样一个任务。

  • continuing task:如机器人,这样的任务有很长的生命周期,时间点几乎无限,所以如何衡量累计奖励呢?我们引入discounting的概念。
    discounting\gamma,看公式:


    原来\gamma是一个参数值,在[0,1]范围,这样的话随着时间增长累计奖励也总是有限范围,这个参数称为折扣率(discount rate)

  • 这里看出强化学习的一个重要观点:连续时间点给出的回报之间是有关联的。

3.4 Unified Notation for Episodic and Continuing Tasks

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容

  • 一. 增强学习简介 1.1 什么是增强学习? 机器学习的算法可以分为三类:监督学习,非监督学习和增强学习。 增强学...
    阿阿阿阿毛阅读 31,055评论 0 25
  • Agents设计 本文翻译自https://github.com/Unity-Technologies/ml-ag...
    浪尖儿阅读 6,023评论 0 6
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,596评论 18 139
  • 每个女孩,都有个公主梦。爸妈捧在手心上,有蓬蓬的公主裙,闪亮的小皇冠,圆头小皮鞋,还有将会遇到的命中注定的...
    梓梓的小阿梓阅读 331评论 0 0