一些专有名词

PPO(Proximal Policy Optimization,近端策略优化)是一种强化学习算法,核心思想是「每次更新策略时,步子不能迈太大,要稳扎稳打」。

RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)是一种用人类偏好来训练大语言模型的方法,让模型学会「人类觉得什么回答好」,而不是简单地「预测下一个词」

DPO(Direct Preference Optimization,直接偏好优化)是一种让大模型学习人类偏好的训练方法。与ChatGPT早期使用的RLHF(基于人类反馈的强化学习)相比,它最大的不同是跳过了一个复杂的中间步骤——奖励模型,让训练过程变得像常规微调一样简单和稳定

GRPO(Group Relative Policy Optimization,群体相对策略优化)是DeepSeek为训练大模型而提出的强化学习算法,核心思想是让模型通过「内部小组竞赛」来学习——同一道题生成多个答案,把组内平均分当作及格线,超过平均线的答案被强化,低于平均线的被抑制。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容