进化论和增强学习

增强学习目标是学习到使激励函数或者价值函数最大化的策略模型。人类把这个过程进行数学抽象化,提取了Markov Decision Process模型。

而求解MDP问题的主要方案(或者说增强学习的典型思路),是对大量的随机过程进行采样,总会采样到一些幸运的样本(这些样本有一些好结果),增强学习就会选择这些好的采样的策略,周而复始,如果采样够多,最终增强学习会获得一个相对不错的策略,但是这个策略通常会收敛到局部最好策略,而不是全局最好策略。

上面讲的是求解MDP问题的基本思路,实际问题解决要复杂的多,要考虑诸如状态空间和动作空间问题,价值函数定义、采样等等问题,尤其是两个特别典型的问题:

1、短期利益和长期利益的权衡,模型要求的是最终综合利益最大化。

2、先验知识和探索的权衡,在已有一个较好的模型下去探索更好的模型的可能性。

增强学习过程是一个很复杂的求解过程(你也可以理解成简单的问题可以用动态规划或者其他传统最优化方案解决,就只剩复杂的问题需要增强学习来解决),现实世界中的生物进化论可以认为是一个典型的例子。

生物进化最基本的驱动就是个体生存和物种生存,这对应于增强学习过程中的激励函数或者说价值函数。

生物进化的本质是在各个方向上试错,赌对了就是进步。这是不是很像上帝在进行生物进化采样?幸运的物种偶尔走对,就被保留下来,这种趋势就不断的在被加强。现在活着的物种无论从那方面来说都是幸运无比,这个概率小到只能用奇迹或者神迹这样的字眼来表达。反过来也可以说,只要对过程采样足够多,增强学习总可以学习到一些东西,现实世界可以作为一个明证。

世界的生物多样性表明了可以生存的策略也是非常多样化的,无论是力量速度型的老虎狮子、可以在天空飞的各种鸟儿,甚至是细菌、微生物都有自己的生存之道,大家都收敛到自己的局部最优点。想一想Advantage函数真的是现实的很好的抽象,生物不需要找到最优策略,只要比均值好一点就能生存。

即使是每种生物都找到了自己的生存之道,但是变异还在继续,进化还在随机的进行中,只不过都集中在现存的这些策略周围进行随机的演变,对应于增强学习中的先验经验和探索的权衡。

人类在生物进化中也是一朵奇葩,放弃了力量、速度和敏捷,在最初的较量中并不占优势,但是在宏大的时间长河中证明这是才长期利益最大化的最好途径,有限资源优先发展大脑。

物种的生存策略选定之后,虽然也在不断的随机进化中,但是大的方向已经调整不了了,所以一旦走到了死胡同,就再也没有回头路,想想这个再看看论文Trust Region Policy Optimization,是不是很感慨呢?

如果把增强学习和生物进化轮联系在一起,会不会惊出一身冷汗?难道真的有更高一级的生物选定了地球做增强学习的试验场吗?不管答案是什么,这是一个真实并且残酷的世界。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,544评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,430评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,764评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,193评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,216评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,182评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,063评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,917评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,329评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,543评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,722评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,425评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,019评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,671评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,825评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,729评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,614评论 2 353

推荐阅读更多精彩内容

  • 机器学习是做NLP和计算机视觉这类应用算法的基础,虽然现在深度学习模型大行其道,但是懂一些传统算法的原理和它们之间...
    在河之简阅读 20,500评论 4 65
  • 姓名:于川皓 学号:16140210089 转载自:https://baike.baidu.com/item/%E...
    道无涯_cc76阅读 1,680评论 0 1
  • 一. 增强学习简介 1.1 什么是增强学习? 机器学习的算法可以分为三类:监督学习,非监督学习和增强学习。 增强学...
    阿阿阿阿毛阅读 31,149评论 0 25
  • 作者:梅拉妮·米歇尔(Melanie Mitchell)译者:唐璐原著名称:《Complexity: A Guid...
    马文Marvin阅读 1,581评论 0 4
  • 想拥有一家甜品店,简单的甜品跟现磨的咖啡,附带鲜榨几种应季的水果或者几款低糖低热量的饼干也是极好的。 不为谋生活,...
    爱上树的老蚂蚁阅读 356评论 1 1