DeepSeek的拳法-转载

作者：秋林一响箭

DeepSeek大模型火爆春节档，在我的记忆中，除了邓爷爷去世那年和疫情那年，没有哪一年像今年这样，让一桩公众新闻事件牢牢占据人们心头，冲散了年味。他们靠什么赢下这场战役？简言之：三套组合拳。

第一套组合拳：DeepSeek-V3，内核是优化技术的组合+微创新，主打成本优化，以最快的速度生成每一个词。

V2主打推理，V3主打训练。V3继承了V2的MLA Attention+MOE FFN的主体架构，在此基础上又堆叠了很多优化手段：MTP，Dual pipe，FP8，存储优化等。这些优化技术，每一项单独拿出来看，你都不会觉得有什么稀奇，都似曾相识。MLA的思想源自Lora，MOE源自Grok，MTP源自Medusa，Dual pipe源自PP并行技术。新发表的NSA则是一套几种稀疏注意力的小组合。但是，这每一项又都有微创新，都和原创的东西不一样，比如MLA中那两个扩展矩阵的“吸收”，做的还是很细致的，而且这些优化技术大多处于AI优化食物链的中高端（参见个人配图），再组合起来用，这威力就大了。

第二套组合拳：DeepSeek-R1-Zero+DeepSeek-R1，内核是后训练技术的整合+微创新，主打大模型推理能力。

RL，SFT+RL，GRPO，蒸馏，各种后训练技术都被整合进来，主要创新点是直接用RL后训练和GRPO。猜测他们在背后一定是尝试了更多的组合形式，只是最后层现出来的是我们看到的这个最好形态。

第三套组合拳：春节档的宣传战。个人认为，这才是DeepSeek最后的杀招，最致命的一套组合拳。

从时间看，V3是离春节还有一段时间的时候发布，Zero紧跟，R1是春节前夕发布，刚好赶上股市休整，大家都憋着等待开市暴走，之后紧接着又要开两会了。从宣传看，有产品的发布，有各大厂和平台的API全面接入，有技术论文的发表。这个时间点，这一通操作下来，如果说没有精心策划过，只是巧合，我是不太信的。

乱拳打死老师傅，这几套拳下来，确实挺猛，打的美国老师傅们有点难以招架。但是最终能不能取得比赛的胜利，个人理解还是有一些潜在的问题。

问题一：成本优势能维持多久。DeepSeek的成本优势主要源于模型架构的创新，不像中国别的企业，成本优势在于廉价劳动力和原材料。技术带来的成本优势其实比较容易被老美追赶或反超的。

问题二：技术整合还有多少空间。现有的原创技术已经整合的差不多了，还有多少微创新的空间可以去挖掘，有没有真正的革命性原创的能力，NSA的发表会不会就此开始慢慢拉下这场技术狂欢的帷幕？拭目以待。

问题三：水分有多少。一：先抛开蒸馏不说，V3的成本优势主要在训练成本上。这部分成本优势有多少能转化成推理成本的节省，应该会打个折扣。当然从V2继承来的MLA对推理还是有用的。二：宣传的成本是否是真实的全部成本，有一定疑问。三：模型运行速度能否达到预期水准，个人经验看，比较难。四：可能是为了赶时间节点，有些地方用起来还是不太完善的。

总的来说，不管终局如何，DeepSeek其实已经赢了。有人说这是技术长期主义的胜利，个人感觉这个描述也没大毛病，但也不是太准确。诚然，没有一定的技术积累，比如他们一直坚持的MOE，是做不到现在这个程度的，但他们更是赢在了中国式的技术整合+微创新能力，赢在技术爆发力，赢在打组合拳的能力。

DeepSeek的拳法-转载

推荐阅读更多精彩内容