解读Been There, Done That: Meta-Learning with Episodic Recall

最近在研究的线路就是: metal learning + episodic memory.

我觉得agent

需要能学习各种任务,也需要有记忆把学到的抽象的东西保存下来,这样可以1.通过搜索,联想,推理,在遇到新任务时,看似不相同也能从经验中快速学到规律,这样可以减少漫无边际的游荡在搜索空间的时间。2.重复出现的任务,就可以直接从记忆调取拿来用了。

这篇论文要解决或因面临什么样的现状而产生的?

1 当面临结构相近可是不同而新颖的任务时该怎么加快学习速度?

2 之前遇到过得任务确定会重复发生,你该怎么办,每次都重新学习?

即:confronting learners with (1) an open-ended series of related yet novel tasks, within which (2) preciously encountered tasks identifiably reoccur (for related observations, see Anderson, 1990; O’Donnell et al., 2009). In the present work, we formal-ize this dual learning problem, and propose an architecture which deals with both parts of it.

前提要点:

参考点:情景记忆是去保存曾经遇到过得场景和策略,避免每次遇到此类都需要反向传播式的增量更新。

对比: 对比当前场景的内部表示和过去场景的内部表示,选择出与当前相似的过去场景(策略动作)

快与慢的依赖关系:情景记忆依赖缓慢地增量式更新

学习者知道该采用什么样的归纳偏置

(对于标准的深度学习,学习者没有这些偏置信息,也就是会有较高的方差,所以会考虑很大范围的假设,从而希望找到那一个带有偏置的最优假设。)

学习如何学习: 能够加速强化学习,这一通用观点可通过多种方式实现,那篇(我上次介绍的前额皮质的论文)提出一种与神经科学和心理学特别相关的一种方法。

论文架构:

一个标准的LSTM+differentiable neural dictionary(DND)

即:This architecture melds the standard LSTM working memory with a differentiable neural episodic memory.

下面开始看图说话

1.任务有3个,如图按序列的喂给LSTM网络

2.每个任务都有一个cue,这是标志任务开始了,所以要从DND中去搜索与当前cue最接近的一个key,找到对应value,传回给隐变量们,注意隐变量们不一定能得到这个值,这取决于有一个r-gate.

3.一开始r-gate是关着的,因为开始的训练是不需要从DND获得啥的,所以它关着,随着训练越来越接近尾声倾于稳定,这个门逐渐打开,使DND中存储的记忆能够回到对应的当前的隐变量中。这个过程称之为:读。

4. 在一个任务的结束时,会将这个任务的隐变量们和对应cue存储到DND中,又或者cue在DND中已经存在,那么就是去更新它。这个过程称之为:写。

5,具体r-gate是什么,下节见。

differentiable neural dictionary(DND)是什么?

如公式,r-gate就是图中rt,就是在LSTM中加一个门,它能让网络自己去调用和把握,自己去优化出最好的开放和关闭节奏,而不是规定死了每次都要用DND的内容完全决定决策。

如上图,公式的另一种呈现。灰色部分是普通的LSTM结构,黑色线是应DND结构而生的门。

最后,github上有个自己实现的对应代码(pytorch):

https://github.com/qihongl/dnd-lstm/

我看了,他的memory(DND)就是由list来存储的,寻找相似记忆就是通过similarity函数实现的,metric(相似度衡量标准)可选,有L2距离,L1距离和余弦。

不过觉得它的实现,尤其是读和写的内容不符合我上面讲的理论,逻辑上我推理出它不能实现它预期的task based 的情景记忆任务。暂时没有时间去跑代码和深究。

若你看完也发现问题,或觉得没问题,欢迎交流:

wechat: Leslie27ch

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,125评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,293评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,054评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,077评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,096评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,062评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,988评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,817评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,266评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,486评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,646评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,375评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,974评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,621评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,642评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,538评论 2 352

推荐阅读更多精彩内容