AI 产品经理如何理解强化学习?

AI领域很多技术原理,都可以从人脑在现实世界中学习找到参照对应。随着社会智能化水平提升,智能体概念应用场景越来越广,提到智能体绕不过去的是强化学习技术,本篇探讨下AI产品经理对强化学习的理解。

高中错题本

通过强化学习技术训练智能体的原理是,智能体通过在环境中不断试错交互,获得环境的状态反馈和任务奖励反馈,以此不断积累数据,并不断调整智能体,通过海量的试错和应用,最终形成高质量的智能体(agent)。

上高中时候,每天都有大量的课程和习题,同时学校要求构建错题本,即专门将错题整理成册。这就构成了两套系统,一方面不断通过大量的习题和考试练习,大脑对知识的掌握获得快速的对与错的反馈;另一方面,通过整理错题本和不断加强对错题的理解和思考,可以对知识薄弱环节进行针对性提升。

实际执行下来,并非每个学生都能很好掌握错题本习惯其中的奥义。假设只大量练习,不加强错题本整理和分析,会出现不断的重复在同样知识上失分;假设只看错题本,而不做大量练习,就会存在训练不足,掌握知识的泛化和迁移性存疑,可能陷入信息茧房,甚至错题本本身内容也会成为无源之水。

因此,大量练习是必要的,温错题而知新也是必要的,最终导向更高的分数,这样的优化目标。这就是现实中的强化学习应用。

游戏智能体

强化学习出现时间不短,但目前商业化应用场景仍然比较有限,大量的强化学习研究和应用都在游戏领域。

上述提到强化学习需要通过大量的与环境交互产生数据,才能不断地将智能体训练的更加智能。往往现实场景难以具备这样的条件,因此训练强化学习智能体的前提,一个仿真模拟的环境就是必要条件。电子游戏的本身便是对现实或想象的仿真模拟,并且通过各种信息识别方式,反馈很容易收集与量化。

拿上古策略游戏《三国群英传1》举例,智能体训练目标便是最小化统一时间,进一步是最小化占领全部城池时间。在优化目标前提下,城池、路线、将领、兵种都是智能体可以不断试错的对象,通过观察-行动-反馈不断积累数据,为了加速数据积累,可以同时开大量并行线程,加速智能体的试错与迭代。

通过这种方式训练出来的智能体,只要训练数据足够海量,打游戏的效果大概率比大部分人强的。但带来的问题是,智能体可以快速做出策略行动时,但不一定能解释清楚背后的原因或机理,这就是强化学习智能体可解释性问题。对比来讲,人类玩家需要长年累月的玩同样游戏和总结经验,形成对于剧本策略、武将、兵种等认知,然后行动中根据机理理解进行明确策略执行。

大模型+强化学习

去年大模型的爆发,很多业内人士会觉得是工程领域的成果。预训练模型刚出现时,在没有做指令微调情况下,与大模型交互,经常会出现大量答非所问的情况,这个阶段即便大模型已经掌握了很多知识,也不具备可用性。

收集大量人类认知与交互数据后,通过指令微调,大模型加深了与人类对齐能力,少了无关输出,更具有可用性。但实际使用过程中,又会出现幻觉,即模型不知道自己不知道,也要给出回答。这里的问题是SFT只有正样例造成过强的信号导致大模型受到影响。

RLHF(人类强化学习反馈)将人类反馈的结果作为强化学习奖励(reward),对大模型进行强化学习模拟交互,给出的生成结果,经过人类排序,排序本身既包含了正反馈与负反馈,最终使大模型更加符合人类认知与偏好。

安全性与生活应用

强化学习之商业化应用有限,主要原因是在严肃决策场景如何保证可解释性与安全性问题。解决安全性问题有两种思路:即先划定安全空间,强化学习给出的策略在安全空间才采用;另外一种思路是,将强化学习作为优化目标的约束条件,这样强化学习给出的策略也能保证安全性。

强化学习虽然是AI技术,但我们日常生活中,仍可以借鉴强化学习的思想做刻意练习进行自我提升。例如日常梳理思路、写文章、与人复盘交流,都是不断从现实世界中抽象数据,进行针对性强化练习,将自己大脑训练的更加全面,更好适应生产生活的需要。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,125评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,293评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,054评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,077评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,096评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,062评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,988评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,817评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,266评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,486评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,646评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,375评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,974评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,621评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,642评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,538评论 2 352

推荐阅读更多精彩内容