2025-02-13 长链式思维(CoT)示例微调的检查点

长链式思维(CoT)示例微调的检查点

DeepSeek-R1 的训练流程中的第一阶段是 Cold Start(冷启动,SFT 阶段),会使用人工收集的数千条高质量长链思维(CoT)数据。这些数据经过格式规范化和多语言对齐处理,用其对基模型(DeepSeek-V3-Base)进行微调,得到的检查点为后续的强化学习(RL)提供稳定的初始策略,确保输出格式规范且可读性强。

作用及意义

提高模型准确性:如上述 Llama - 3.1 - 8B 在相关实验中,Long CoT SFT 继续提高模型的准确性,而短链式思维 SFT 在较低准确性水平上早期饱和。

为强化学习提供更好基础:通过数千个长链式思维示例微调得到的检查点,为后续强化学习阶段提供了更稳定、更具规范性的起点,有助于模型在强化学习过程中更好地学习和优化,提升核心推理能力等博客园。

提升模型泛化能力:高质量的长链式思维数据可以让模型学习到更丰富、更复杂的推理模式和知识,从而在面对不同类型的任务和数据时,具有更好的泛化能力,能够更好地处理分布外任务。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容