《DeepSeek:从入门到精通》文档中对 DeepSeek 的技术架构介绍如下:
📢DeepSeek 15天指导手册——从入门到精通:https://url.facai88.cn/0kZd
基础架构:DeepSeek 大语言模型系以 Transformer 架构为基础,是自主研发的深度神经网络模型。该模型基于注意力机制,能够更好地捕捉文本中的长距离依赖关系,提升对复杂文本的分析和生成能力。
训练机制
预训练:通过海量语料数据进行预训练,例如 DeepSeek-LLM 包含 670 亿参数,在包含 2 万亿 token 的数据集上进行了训练,数据集涵盖中英文;DeepSeek-Coder 每个模型均从零开始在 2 万亿 token 上训练,数据集包含 87% 的代码和 13% 的中英文自然语言;DeepSeek-Math 以 DeepSeek-Coder-v1.5 7B 为基础,在从 CommonCrawl 中提取的数学相关 token 以及自然语言和代码数据上进行预训练,训练规模达 5000 亿 token。
微调与强化学习:经过监督微调、人类反馈的强化学习等进行对齐,如 DeepSeek-V2 在完成全面的预训练后,通过监督微调(SFT)和强化学习(RL)进一步释放了模型的潜力。
安全机制:构建形成深度神经网络后,增加了审核、过滤等安全机制,使算法模型部署后能够在实现语义分析、计算推理、问答对话、篇章生成、代码编写等任务的同时,确保输出内容符合规范和要求。
多模态技术:DeepSeek 还在多模态融合方面进行了探索,如 DeepSeek-VL 采用了混合视觉编码器,能够在固定的 token 预算内高效处理高分辨率图像(1024×1024);DeepSeek-VL2 是用于高级多模态理解的专家混合视觉语言模型,在视觉问答、光学字符识别、文档 / 表格 / 图表理解以及视觉定位等多种任务中展现了卓越的能力。