DeepSeek 的冷启动数据
数据来源与收集方式
few-shot prompting 方式:设计带有长思维链(CoT)的少量示例提示,为模型提供典型的推理模式和思路,让模型按照提示生成数据。
直接提示生成:直接提示模型生成带有反思和验证的详细解答,使收集到的数据具有深度推理和自我检验的特点。
收集 R1-Zero 输出并处理:收集 DeepSeek - R1 - Zero 的输出,经过人工注释者进行后处理,对数据进行标注和格式化,使其符合要求。
数据规模
据相关资料显示,DeepSeek 为训练 DeepSeek - R1 收集的冷启动数据约 1000 个思维链数据,是精心策划的高质量推理示例。
数据格式
定义的输出格式是 | special_token||special_token|,其中 reasoning_process 是该查询的 CoT,summary 用于总结推理结果,以提高可读性和一致性。
数据作用
提高可读性:与 DeepSeek - R1 - Zero 不使用冷启动数据产生的输出相比,冷启动数据能让模型输出更具可读性,避免多种语言混杂等问题,每个回答末尾有总结,整体输出更符合阅读习惯。
提升性能:通过精心设计冷启动数据的模式并结合人类先验,能使 DeepSeek - R1 在性能上优于 DeepSeek - R1 - Zero,帮助模型在后续训练中更快收敛和提升推理性能。