论文笔记(三)NIPSI:value iteration Networks

论文笔记(三)NIPSI:value iteration Networks

arxiv:https://arxiv.org/pdf/1602.02867.pdf
GitHub:https://github.com/onlytailei/Value-Iteration-Networks-PyTorch

首先,安利一下我最近在准备的会议nips:

NIPS:神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems),是一个关于机器学习和计算神经科学的国际顶级会议。该会议固定在每年的12月举行,由NIPS基金会主办。在中国计算机学会的国际学术会议排名中,NIPS为人工智能领域的A类会议。

1)本文的目的,通过一个价值迭代神经网络代替人物的损失函数,证明强化学习中我这个策略是有效的,可以用来预测未知的领域。

传统神经网络需要一个人类科学家精心打造的损失函数。但是,对于生成模型这样复杂的过程来说,构建一个好的损失函数绝非易事。这就是对抗网络的闪光之处。对抗网络可以学习自己的损失函数——自己那套复杂的对错规则——无须精心设计和建构一个损失函数.

这里写图片描述

作者引入了两个函数fR和fP 分别用于的参数化 奖励R'和转移概率P'。函数fR为一个奖励函数映射:当输入的状态图,计算出对应的奖励值;例如,在接近于目标附近的状态得到的奖励值就比较高,而接近于障碍物的状态得到的奖励值就越低;fP 是一个状态转移的函数,是在状态下的确定性的转移动作。
这篇文章中起作用的就是我红圈那个模块,用于策略评估的回报函数/价值函数.不再用传统的指数家族函数或者log损失函数去模拟价值函数, 而是在框架中加入一个VI(Value iteration)模块。

抛砖引玉来了

那么我们引入了一个游戏:
给你一张图,让你找到一条起点到终点的最短路径,
那么问题来了,如果我去掉最短路径这个损失函数,那么神经网络会不会自己学会目标是找最短路?


这里写图片描述

可以看到在没有价值迭代模块的时候效果并不理想。


这里写图片描述

那么,我们又该如何·通过价值迭代的方法解决这个问题呢?

什么是增强学习中的价值迭代?

首先, 传统增强学习的价值迭代, 是在每次迭代根据已有的一些行为, 状态转移, 以及回报的信息, 更新价值函数:


这里写图片描述

状态S,
行为a,
奖励函数R(S,a)
转移概率P(S'|S,a);
这样我们就可以得到一连串的马尔科夫决策链:


这里写图片描述

那么我们可以一个价值迭代模块VI

这里写图片描述

看作CNN神经网络
输入是: 回报R, 转移概率P和上次迭代的价值函数Pre V,
输出是: 价值函数V. 之所以看做CNN, 是针对一些回报R是局部相关的问题.
我们把4个上下左右的通道组成一个新的value,用attention来剪枝,我只关心这四个状态,
基于这样的观察,作者就提出了本文的VI Network,表达式为:


这里写图片描述

并且在得到的结果当中,对不同通道的Q值进行 max-pooling操作。那我们来理解这个表达式,在表达式当中的l 表示的是各个动作action对应的R层,a其实对应于l; 累加当中的 表示邻近于这个位置的一个区域索引。W 就是网络的参数了,也就是一个卷积核,表示的是可以到周围的几个Q的概率;经过最后的 跨通道的Max-pooling 得到就是一次迭代后的值函数的值。于是这样这个网络具备了值迭代的功能,同时也能够像CNN一样通过BP算法来进行网络的更新。


这里写图片描述

引入了两个函数fR和fP 分别用于的参数化 奖励R'和转移概率P'。函数fR为一个奖励函数映射:当输入的状态图,计算出对应的奖励值;例如,在接近于目标附近的状态得到的奖励值就比较高,而接近于障碍物的状态得到的奖励值就越低;fP 是一个状态转移的函数,是在状态下的确定性的转移动作。
这样以来,我们的状态就大幅减少了,通过学习VI,我们是否可以让VIN变成一个价值函数?
这里写图片描述

可以看得出效果还是很明显好的。
优点:总结VIN的创新点,我觉得主要是以下的几个点:
  1. 将奖励函数和转移函数也参数化,并且能够求导;

  2. 引入了一个空间辅助策略的求解,使得policy更具有泛化能力;

  3. 在策略的求解当中引入attention机制;

  4. 将VI module的设计等价为一个CNN网络,且能够使用BP算法更新网络。

这个规划我个人认为,有点类似启发式搜索,但是VIN的优点就是我会根据每次迭代根据已有的一些行为, 状态转移, 以及回报的信息, 更新价值函数。相当于它学会了应该“干什么”,而不是让人为审定,这个模块的提出进一步的怎么了强化学习的可行性,为我们的元学习奠定了基础,接下来,陈扬要介绍的是正在看的Genetic CNN.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,406评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,732评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,711评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,380评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,432评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,301评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,145评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,008评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,443评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,649评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,795评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,501评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,119评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,731评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,865评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,899评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,724评论 2 354

推荐阅读更多精彩内容

  • 刘双鹤,焦点解决讲师一期班,平顶山,成长分享第859天(2018.5.9星期三) 观点,是说你站在特定的观察点看到...
    在路上_1阅读 592评论 0 0
  • 小的时候我就没有写日记的习惯,一写作文就抓狂,找各种书,东拼西凑,经常是整个“四不像”交上去。有一次,翻到一篇文章...
    忆雪儿阅读 187评论 4 1
  • 大致是说有几个人在码头搭船,在船将要离岸的时候,突然从岸上跑来一个人央求他们也搭上他一起。这时船上有一个人慷慨的说...
    kikixue12阅读 186评论 0 1
  • “这群老朋友,你们过得好不好”“谈一谈过往,也可挥洒下青春” 1 前一段日子,闺蜜糖糖发来微信:“我要办婚宴了,带...
    YIBAO阅读 1,424评论 4 6