一些专有名词

PPO（Proximal Policy Optimization，近端策略优化）是一种强化学习算法，核心思想是「每次更新策略时，步子不能迈太大，要稳扎稳打」。

RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）是一种用人类偏好来训练大语言模型的方法，让模型学会「人类觉得什么回答好」，而不是简单地「预测下一个词」

DPO（Direct Preference Optimization，直接偏好优化）是一种让大模型学习人类偏好的训练方法。与ChatGPT早期使用的RLHF（基于人类反馈的强化学习）相比，它最大的不同是跳过了一个复杂的中间步骤——奖励模型，让训练过程变得像常规微调一样简单和稳定

GRPO（Group Relative Policy Optimization，群体相对策略优化）是DeepSeek为训练大模型而提出的强化学习算法，核心思想是让模型通过「内部小组竞赛」来学习——同一道题生成多个答案，把组内平均分当作及格线，超过平均线的答案被强化，低于平均线的被抑制。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。