登录注册写文章

2025-02-07 DeepSeek 的冷启动数据

2025-02-07 DeepSeek 的冷启动数据

DeepSeek 的冷启动数据

数据来源与收集方式

few-shot prompting 方式：设计带有长思维链（CoT）的少量示例提示，为模型提供典型的推理模式和思路，让模型按照提示生成数据。

直接提示生成：直接提示模型生成带有反思和验证的详细解答，使收集到的数据具有深度推理和自我检验的特点。

收集 R1-Zero 输出并处理：收集 DeepSeek - R1 - Zero 的输出，经过人工注释者进行后处理，对数据进行标注和格式化，使其符合要求。

数据规模

据相关资料显示，DeepSeek 为训练 DeepSeek - R1 收集的冷启动数据约 1000 个思维链数据，是精心策划的高质量推理示例。

数据格式

定义的输出格式是 | special_token||special_token|，其中 reasoning_process 是该查询的 CoT，summary 用于总结推理结果，以提高可读性和一致性。

数据作用

提高可读性：与 DeepSeek - R1 - Zero 不使用冷启动数据产生的输出相比，冷启动数据能让模型输出更具可读性，避免多种语言混杂等问题，每个回答末尾有总结，整体输出更符合阅读习惯。

提升性能：通过精心设计冷启动数据的模式并结合人类先验，能使 DeepSeek - R1 在性能上优于 DeepSeek - R1 - Zero，帮助模型在后续训练中更快收敛和提升推理性能。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

2025-02-07 DeepSeek技术论文拆解
出于对DeepSeek如何实现强大的思考、总结和表达能力的好奇，我去搜索了DeepSeek的技术论文，试图了解其实...
乌七七v阅读 567评论 0赞 0
DeepSeek-R1论文浅读
DeepSeek-R1-Zero：直接从DeepSeek-V3-Base进行强化学习RL训练，大概进行了数千步，...
躺不平的NLPer阅读 316评论 0赞 0

deepseek-r1是如何炼成的
近来，DeepSeek R1 一鸣惊人，迅速席卷各大平台，成为科技领域的热议焦点。从专业论坛到社交媒体，甚至那些原...
金色暗影阅读 483评论 0赞 0
DeepSeek R1 AI 论文翻译
摘要原文地址： DeepSeek R1 AI 论文翻译 [https://houbb.github.io/202...
老马啸西风2020阅读 294评论 0赞 0
deepseek-r1
deepseek-r1是深度搜索公司的开源思维链模型，可以在https://www.deepseek.com[ht...
Wu杰语阅读 379评论 0赞 0

友情链接更多精彩内容

赞1赞

赞赏

手机看全文