长链式思维(CoT)示例微调的检查点
DeepSeek-R1 的训练流程中的第一阶段是 Cold Start(冷启动,SFT 阶段),会使用人工收集的数千条高质量长链思维(CoT)数据。这些数据经过格式规范化和多语言对齐处理,用其对基模型(DeepSeek-V3-Base)进行微调,得到的检查点为后续的强化学习(RL)提供稳定的初始策略,确保输出格式规范且可读性强。
作用及意义
提高模型准确性:如上述 Llama - 3.1 - 8B 在相关实验中,Long CoT SFT 继续提高模型的准确性,而短链式思维 SFT 在较低准确性水平上早期饱和。
为强化学习提供更好基础:通过数千个长链式思维示例微调得到的检查点,为后续强化学习阶段提供了更稳定、更具规范性的起点,有助于模型在强化学习过程中更好地学习和优化,提升核心推理能力等博客园。
提升模型泛化能力:高质量的长链式思维数据可以让模型学习到更丰富、更复杂的推理模式和知识,从而在面对不同类型的任务和数据时,具有更好的泛化能力,能够更好地处理分布外任务。