基于人类反馈的进行强化学习：RLHF

一、RLHF的概念

LLM生成的内容需对齐（Aligned）人类的价值观念，如道德要求等等，已致有学者提出了“宪法 AI”（Constitutional AI）的概念。强化学习是通过奖励(Reward)机制来指导模型训练的，奖励机制可视为模型训练中的优化目标函数。若将人类的反馈视为强化学习的奖励，这就是基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）。

二、训练步骤

首先我们已经有一个预训练模型了，RLHF则是对该模型的进一步调整优化。RLHF分成监督微调（SFT）、奖励建模和强化学习等3个步骤。这3个阶段分别对应3个数据集：SFT数据集、RM数据集和RL数据集。

1.监督微调（SFT）

SFT 使用监督学习来训练模型，以便对不同的提示做出适当的响应，详见有监督微调（SFT）的原理和损失函数。人类专家按照格式 (提示, 输出) 创建带标签的示例，演示对于不同的用例（例如回答问题、进行总结或翻译）该如何对提示作出响应。这个过程所需要的样本，通常需要人工编写，耗时耗力，因此可以引入Self-Instruct方法，详见低成本指令数据集构建： Self-Instruct。

2. 奖励模型

为了给模型提供人类反馈，需要一个奖励模型来将人类偏好转化为数字奖励信号。训练奖励模型需要足够的训练数据，包括来自人类评估者的直接反馈——一种方法是通过概率采样获得多个答案，然后让标注人员对这些答案进行排序；还可以使用不同LLM来回答同一个问题，然后人工排序；还可以直接让标注人员判定“赞成”或“反对”；更复杂的方法可能会要求标记人员提供总体评分，并标注每个输出的缺陷分类，然后通过算法将这些反馈汇总为加权质量分数。

有了奖励模型后，该奖励模型以一个线性层的形式嵌入在原最终softmax层之后，将输出序列映射到一个标量值上，即输入提示和响应，输出反馈分数。

3.强化学习

最后一步是确定如何以及使用多少奖励模型来更新 AI 权重的策略，最成功算法之一是近端策略优化 (PPO)。

大多数机器学习和神经网络模型使用梯度下降来使损失函数最小化，并使误差尽可能小，而强化学习算法往往使用梯度上升来使奖励最大化。然而，如果在没有任何限制的情况下使用奖励函数来训练 LLM，则语言模型可能会为了迎合奖励机制而大幅调整其权重，甚至输出毫无意义的胡言乱语。

PPO 算法会限制每次训练迭代中可以在多大程度上更新策略，从而提供了一种更稳定的更新权重的方法。具体来说，就是使用KL散度来控制新的模型和原始模型之间的差异不要过大，以保持对原始训练数据的拟合能力，KL散度函数有一个超参数β，用于控制散度权重。

目标损失函数.png

预训练损失系数γ控制预训练梯度的强度，是防止LLM在训练过程中过度优化，致模型在通用NLP任务上性能的大幅下降。

最后编辑于：2024.08.20 19:09:42

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,589评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,615评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,933评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,976评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,999评论 6赞 393
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,775评论 1赞 307
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,474评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,359评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,854评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,007评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,146评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,826评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,484评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,029评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,153评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,420评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,107评论 2赞 356

基于人类反馈的进行强化学习：RLHF

一、RLHF的概念

二、训练步骤

推荐阅读更多精彩内容