基于人类反馈的进行强化学习:RLHF

一、RLHF的概念

LLM生成的内容需对齐(Aligned)人类的价值观念,如道德要求等等,已致有学者提出了“宪法 AI”(Constitutional AI)的概念。强化学习是通过奖励(Reward)机制来指导模型训练的,奖励机制可视为模型训练中的优化目标函数。若将人类的反馈视为强化学习的奖励,这就是基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)

二、训练步骤

首先我们已经有一个预训练模型了,RLHF则是对该模型的进一步调整优化。RLHF分成监督微调(SFT)、奖励建模和强化学习等3个步骤。这3个阶段分别对应3个数据集:SFT数据集、RM数据集和RL数据集。

1.监督微调(SFT)

SFT 使用监督学习来训练模型,以便对不同的提示做出适当的响应,详见有监督微调(SFT)的原理和损失函数。人类专家按照格式 (提示, 输出) 创建带标签的示例,演示对于不同的用例(例如回答问题、进行总结或翻译)该如何对提示作出响应。这个过程所需要的样本,通常需要人工编写,耗时耗力,因此可以引入Self-Instruct方法,详见低成本指令数据集构建: Self-Instruct

2. 奖励模型

为了给模型提供人类反馈,需要一个奖励模型来将人类偏好转化为数字奖励信号。训练奖励模型需要足够的训练数据,包括来自人类评估者的直接反馈——一种方法是通过概率采样获得多个答案,然后让标注人员对这些答案进行排序;还可以使用不同LLM来回答同一个问题,然后人工排序;还可以直接让标注人员判定“赞成”或“反对”;更复杂的方法可能会要求标记人员提供总体评分,并标注每个输出的缺陷分类,然后通过算法将这些反馈汇总为加权质量分数。

有了奖励模型后,该奖励模型以一个线性层的形式嵌入在原最终softmax层之后,将输出序列映射到一个标量值上,即输入提示和响应,输出反馈分数。

3.强化学习

最后一步是确定如何以及使用多少奖励模型来更新 AI 权重的策略,最成功算法之一是近端策略优化 (PPO)。

大多数机器学习和神经网络模型使用梯度下降来使损失函数最小化,并使误差尽可能小,而强化学习算法往往使用梯度上升来使奖励最大化。然而,如果在没有任何限制的情况下使用奖励函数来训练 LLM,则语言模型可能会为了迎合奖励机制而大幅调整其权重,甚至输出毫无意义的胡言乱语。

PPO 算法会限制每次训练迭代中可以在多大程度上更新策略,从而提供了一种更稳定的更新权重的方法。具体来说,就是使用KL散度来控制新的模型和原始模型之间的差异不要过大,以保持对原始训练数据的拟合能力,KL散度函数有一个超参数β,用于控制散度权重。

目标损失函数.png

预训练损失系数γ控制预训练梯度的强度,是防止LLM在训练过程中过度优化,致模型在通用NLP任务上性能的大幅下降。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,589评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,615评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,933评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,976评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,999评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,775评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,474评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,359评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,854评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,007评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,146评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,826评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,484评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,029评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,153评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,420评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,107评论 2 356

推荐阅读更多精彩内容