一、概述
通过链式思考增强的大语言模型在复杂任务上已取得显著的性能提升,但在将这种推理方式无差别地应用于所有问题时,常常面临推理开销过大、响应延迟偏高等现实瓶颈。为解决这一矛盾,bilibili Index-llm Team提出 SABER(Switchable and Balanced Training for Efficient LLM Reasoning),一种让大模型具备可切换、可控、并受 token 预算约束的推理能力的强化学习框架。
SABER 首先对基座模型在每个训练样本中的推理长度进行统计,将样本划分到不同的预算层级。在随后的微调过程中,模型在系统提示词和混合奖励的引导下,学习如何在给定预算内完成推理。同时,我们额外加入一部分无思考训练数据,确保模型在关闭显式推理时依然能够稳定作答。SABER 支持四种离散推理模式:NoThink、FastThink、CoreThink、DeepThink,能够在推理深度与推理延迟之间灵活调节。我们在数学推理、代码生成和逻辑推理等复杂任务上进行了系统实验。结果显示:SABER 在限制 token 预算下依然保持高精度推理结果,具备平滑退化特性,并在跨模型规模与跨任务场景中展现出良好的泛化能力。特别是在 MATH 任务上,SABER-FastThink 将推理长度减少了 65.4%,并相较基座模型提升了 3.6% 的精度,展现出显著的效率与性能优势。
二、背景
近年来,大语言模型在复杂推理任务上的表现取得了显著进步,这主要得益于它们在显式、逐步的思考能力上的增强。诸如思维链提示(Chain-of-Thought)和推理时扩展(Test-Time Compute Scaling)等方法,使模型能够在给出最终答案前,将问题拆解为一系列中间步骤,从而提升推理的可靠性和准确性。这类策略已在多类任务中展现出了卓越的效果。
然而,这种方法也带来了一些新的挑战。首先,推理轨迹往往过长,导致推理成本和响应延迟显著增加。更重要的是,模型通常会在所有输入上机械地采用相同的深度推理流程,而不考虑任务本身的复杂度或用户的偏好。这种推理深度与任务需求的不匹配,引出了一个越来越受到关注的问题:过度思考(overthinking)。在这一现象中,大语言模型即便面对极其简单的问题,也会生成冗长、复杂且不必要的推理内容。例如,对于“1 + 1 等于几?”这样的简单问题,一些模型可能仍会给出多步推理、列举无关的推导过程,其 token 消耗远超直接回答。这不仅拖慢响应速度,也显著提高推理的计算成本,从而限制了模型在真实场景中的部署效率。
尽管已有工作尝试通过指令微调、长度约束、奖励重塑等方式来压缩输出,但这些方法多依赖静态规则或任务无关的启发式机制,既无法根据问题难度动态调节推理长度,也无法真正让用户掌控模型的推理深度。
三、方法
3.1 思考长度统计与预算划分
思考预算(thinking budget)的设计是 SABER 的核心。若所有样本采用统一预算,简单任务不会受到长度约束,难题则会持续受罚并导致性能崩塌。为此,SABER 对每个样本单独校准预算:先运行基础模型,统计和之间的推理 token 数量,再依据分布将样本划分为三个难度档:128(简单)、4096(中等)和 16384(困难)。难度越高,所允许的推理长度越宽松;超过 16384 的样本不设上限。同时在系统提示词中显式告知该样本的推理上限,从而让模型在训练中学习不同推理模式之间的切换。图1展示了不同思考模式的系统提示词。
这种分级缩放策略既保证了大量样本能产生有效的长度惩罚,加速模式切换的学习,又能尊重任务本身的推理需求,使训练过程更稳定。
3.2 样本分组与稳定性控制
直接对所有样本一开始就施加强长度惩罚会导致训练不稳定,因此 SABER 采用两项稳定化机制:
(1)基于准确率的样本分组
我们测量基础模型对训练集的回答情况,对其无法正确回答的约 40% 样本,其中一半保持原预算、另一半不设预算上限,使其推理过程不受惩罚。只有基础模型能答对的 60% 样本才会被降级预算。该策略减少了模型早期因频繁切换推理模式而带来的不稳定性。
(2)推理长度比例约束
为了避免模型为了减少惩罚而故意生成过短的推理轨迹,我们要求生成的思考 token 数必须在基础模型长度的区间内。防止出现因过度压缩推理导致的reward hacking现象。
3.3 无思考模式构造
在应用场景中,用户可能希望直接获得答案而无需推理过程。然而长推理模型若直接关闭思考通常会导致显著性能下降。因此 SABER 显式在训练集中加入部分 no-think 样本,通过构造极短的占位思维块来告诉模型跳过推理直接作答。即使少量数据,也能显著增强模型在无推理模式下的稳定性与表现。
omega-shs.watchrhc.cn
omega-shs.zzjshd.com
omega-shenzhen.shjshdzb.com
omega-shenzhen.watchxu.com
omega-shs.ynwatchzb.cn
omega-shs.watch-service.com.cn
omega-shenzhen.gyjshd.com
omega-shenzhen.spezp.com
omega-shs.shrhzb.com
omega-sys.shrhzb.com
omega-sys.jshdvip.com
omega-shenzhen.iwatch4s.com
omega-shenzhen.gyjshdzb.com
omega-shs.jhpwd.cn
omega-shs.szjshdzb.com
omega-sys.szjshdzb.com
omega-sys.wzjshd.com
omega-shenzhen.jws-watch.com
omega-shenzhen.jsfltime.com
omega-shs.watchwb.cn
omega-shs.watchsha.cn
omega-whs.watchsha.cn
omega-whs.watch-hdl.com
omega-shenzhen.hdl-watch.com
omega-shenzhen.watchhdlb.cn
omega-shs.watchhdli.cn
omega-shs.watchzgi.cn
omega-whs.watchzgi.cn
omega-whs.watchrhf.cn
omega-shenzhen.jshdsh.com
omega-shenzhen.watchec.cn
omega-shs.watchda.cn
omega-shs.watchhls.com
omega-gebs.watchhls.com
omega-gebs.csjshd.com
omega-hzs.jshdkm.com
omega-hzs.sxjshdzb.com
omega-shs.xajshdzb.com
omega-shs.sxjshd.com
omega-gebs.sxjshd.com
omega-gebs.watch51.com
omega-hzs.jshdcq.com
omega-hzs.richardweixiu.com
omega-shs.watchjt.com
omega-shs.jshdzg.com
omega-wxs.jshdzg.com
omega-wxs.jshdsx.com
omega-hzs.guoshew.com
omega-hzs.ncjshdzb.com
omega-hzs.jsddshwx.com
3.4 无需SFT预热的直接RL优化
与许多需要先进行 SFT 的方法不同,SABER 的构造天然与模型行为一致,因此可直接用强化学习进行训练,无需额外的 SFT 热身阶段,使训练更简单高效。
模型采用 GRPO 进行优化,其奖励由四部分组成:
格式奖励:推理与答案必须使用 ... 标记的结构化格式;
答案奖励:数学任务检查 boxed{} 内容,代码任务通过运行测试;
长度惩罚:超过预算则扣分;
比例惩罚:推理长度若偏离基础模型过多则扣分,防止reward hacking。
综合优化后,模型能够实现对推理深度的精确控制,在长推理、短推理及无推理场景中均保持稳定的高质量回答。