2025-02-07 DeepSeek 的冷启动数据

DeepSeek 的冷启动数据

数据来源与收集方式

few-shot prompting 方式:设计带有长思维链(CoT)的少量示例提示,为模型提供典型的推理模式和思路,让模型按照提示生成数据。

直接提示生成:直接提示模型生成带有反思和验证的详细解答,使收集到的数据具有深度推理和自我检验的特点。

收集 R1-Zero 输出并处理:收集 DeepSeek - R1 - Zero 的输出,经过人工注释者进行后处理,对数据进行标注和格式化,使其符合要求。

数据规模

据相关资料显示,DeepSeek 为训练 DeepSeek - R1 收集的冷启动数据约 1000 个思维链数据,是精心策划的高质量推理示例。

数据格式

定义的输出格式是 | special_token||special_token|,其中 reasoning_process 是该查询的 CoT,summary 用于总结推理结果,以提高可读性和一致性。

数据作用

提高可读性:与 DeepSeek - R1 - Zero 不使用冷启动数据产生的输出相比,冷启动数据能让模型输出更具可读性,避免多种语言混杂等问题,每个回答末尾有总结,整体输出更符合阅读习惯。

提升性能:通过精心设计冷启动数据的模式并结合人类先验,能使 DeepSeek - R1 在性能上优于 DeepSeek - R1 - Zero,帮助模型在后续训练中更快收敛和提升推理性能。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容