作者:秋林一响箭
DeepSeek大模型火爆春节档,在我的记忆中,除了邓爷爷去世那年和疫情那年,没有哪一年像今年这样,让一桩公众新闻事件牢牢占据人们心头,冲散了年味。他们靠什么赢下这场战役?简言之:三套组合拳。
第一套组合拳:DeepSeek-V3,内核是优化技术的组合+微创新,主打成本优化,以最快的速度生成每一个词。
V2主打推理,V3主打训练。V3继承了V2的MLA Attention+MOE FFN的主体架构,在此基础上又堆叠了很多优化手段:MTP,Dual pipe,FP8,存储优化等。这些优化技术,每一项单独拿出来看,你都不会觉得有什么稀奇,都似曾相识。MLA的思想源自Lora,MOE源自Grok,MTP源自Medusa,Dual pipe源自PP并行技术。新发表的NSA则是一套几种稀疏注意力的小组合。但是,这每一项又都有微创新,都和原创的东西不一样,比如MLA中那两个扩展矩阵的“吸收”,做的还是很细致的,而且这些优化技术大多处于AI优化食物链的中高端(参见个人配图),再组合起来用,这威力就大了。
第二套组合拳:DeepSeek-R1-Zero+DeepSeek-R1,内核是后训练技术的整合+微创新,主打大模型推理能力。
RL,SFT+RL,GRPO,蒸馏,各种后训练技术都被整合进来,主要创新点是直接用RL后训练和GRPO。猜测他们在背后一定是尝试了更多的组合形式,只是最后层现出来的是我们看到的这个最好形态。
第三套组合拳:春节档的宣传战。个人认为,这才是DeepSeek最后的杀招,最致命的一套组合拳。
从时间看,V3是离春节还有一段时间的时候发布,Zero紧跟,R1是春节前夕发布,刚好赶上股市休整,大家都憋着等待开市暴走,之后紧接着又要开两会了。从宣传看,有产品的发布,有各大厂和平台的API全面接入,有技术论文的发表。这个时间点,这一通操作下来,如果说没有精心策划过,只是巧合,我是不太信的。
乱拳打死老师傅,这几套拳下来,确实挺猛,打的美国老师傅们有点难以招架。但是最终能不能取得比赛的胜利,个人理解还是有一些潜在的问题。
问题一:成本优势能维持多久。DeepSeek的成本优势主要源于模型架构的创新,不像中国别的企业,成本优势在于廉价劳动力和原材料。技术带来的成本优势其实比较容易被老美追赶或反超的。
问题二:技术整合还有多少空间。现有的原创技术已经整合的差不多了,还有多少微创新的空间可以去挖掘,有没有真正的革命性原创的能力,NSA的发表会不会就此开始慢慢拉下这场技术狂欢的帷幕?拭目以待。
问题三:水分有多少。一:先抛开蒸馏不说,V3的成本优势主要在训练成本上。这部分成本优势有多少能转化成推理成本的节省,应该会打个折扣。当然从V2继承来的MLA对推理还是有用的。二:宣传的成本是否是真实的全部成本,有一定疑问。三:模型运行速度能否达到预期水准,个人经验看,比较难。四:可能是为了赶时间节点,有些地方用起来还是不太完善的。
总的来说,不管终局如何,DeepSeek其实已经赢了。有人说这是技术长期主义的胜利,个人感觉这个描述也没大毛病,但也不是太准确。诚然,没有一定的技术积累,比如他们一直坚持的MOE,是做不到现在这个程度的,但他们更是赢在了中国式的技术整合+微创新能力,赢在技术爆发力,赢在打组合拳的能力。