
如果说2025年的大模型卷的是“逻辑推理”(如DeepSeek R1),那么2026年开年的第一场技术风暴,卷的则是模型的“脑容量革命”。
就在这两天,DeepSeek(深度求索)发布了一篇由创始人梁文锋亲自署名的重磅论文《Conditional Memory via Scalable Lookup》(基于可扩展查找的条件记忆)。业内纷纷猜测,这极有可能就是即将在春节前后发布的 DeepSeek V4 的核心架构。
有意思的是,技术圈敏锐地发现,这项技术与字节跳动 Seed 团队此前提出的 「Over-Encoding」(过编码) 存在着一种奇妙的“学霸接力”关系。
今天,我们就用大白话拆解一下:这两大技术到底在搞什么?它们之间又有着怎样的“爱恨情仇”?
一、 起源:大模型其实是个“死记硬背”的苦力

要理解这两个技术,首先要明白现在大模型的一个“致命缺陷”:
当你问AI“法国首都是哪”或者“《红楼梦》作者是谁”这种事实性问题时,模型虽然能答对,但它在后台极其费劲。它需要动用全身几千亿个参数,经过几十层的神经网络计算,最后才吐出那个答案。
这就像为了查一个英语单词,你不去翻字典,而是动用全身细胞进行了一场深度逻辑推理。太浪费了! 字节Seed团队和DeepSeek团队都敏锐地意识到了这一点:必须把“记性(知识检索)”和“智商(推理逻辑)”分开。
二、字节Seed的“直球”攻击:Over-Encoding

字节跳动 Seed 团队在 2024 年底提出的「Over-Encoding」方法(见论文《Over-Tokenized Transformer》),给出的解决方案非常硬核且直观:既然词典不够用,那就换个超级巨大的词典。
技术逻辑: 传统的模型“词表”可能只有10万个词,而字节建议将其扩展到几百万甚至千万量级(N-gram)。
形象比喻: 以前学生考试只准带脑袋,字节说:“我直接发给你一本包含所有公式、案例、常识的‘超级手册’。” 这样学生在答题时,遇到死记硬背的东西直接“查表”就行。
结论: 字节证明了,只要输入端的“字典”足够大,模型不需要增加层数,考试分数(性能)就能直接起飞。
三、 DeepSeek的“神来之笔”:从“字典”进化到“条件记忆”

如果说字节是发现了“字典”好用,那么 DeepSeek 刚刚发布的「条件记忆(Engram)」则是把这本字典做成了“外挂硬盘”,并给出了精准的使用说明书。
DeepSeek 在字节的基础上做了三个关键进化:
从“静态查表”到“动态筛选”: 字节的方案里,字典是死板的。DeepSeek 引入了“门控机制(Gating)”。模型会根据当下的语境决定:“这段记忆现在有用吗?”如果有用才调取,没用就过滤。这就是所谓的“条件记忆”。
暴力拆解“查”与“算”: DeepSeek 提出了一个著名的“U型 Scaling Law”:他们发现,如果把 20%-25% 的参数分给“记忆模块(Engram)”,剩下的留给“推理模块(MoE)”,模型的综合表现(代码、数学、知识)是最好的。
工程级的“神操作”: DeepSeek 发现,这些海量的记忆参数完全可以存在 CPU 内存里,而不是珍贵的 GPU 显存里。这意味着,未来的 AI 可以拥有近乎无限的知识库,却不增加英伟达显卡的负担。
四、 评价:这是中国大模型团队的一场“学霸接力”

如何评价这两者的关联?我认为这标志着AI 竞争正式进入了“下半场”:架构深水区。
字节 Seed 是“开路先锋”: 他们用实验数据捅破了那层窗户纸,告诉全世界——Transformer 原生的记忆机制效率极低,扩充词表(Over-Encoding)是条通天大路。
DeepSeek 是“集大成者”: 他们接过了接力棒,通过更优雅的数学设计(Engram)解决了字节方案中“数据冗余”和“检索噪声”的问题,并实现了工程落地。
网友神评: “字节发现了矿,DeepSeek 把矿炼成了金子,还顺便把金店开到了 CPU 内存里。”
五、DeepSeek V4 会是“终结者”吗?

从目前披露的论文来看,DeepSeek V4 极有可能不再是一个纯粹的“计算引擎”,而是一个“计算+记忆”的共生体。
这意味着:
更聪明: 逻辑推理不再被繁琐的知识记忆所干扰,推理深度会大幅提升。
更博学: 它可以轻而易举地“背下”整个图书馆,而不会变笨。
更省钱: 这种架构对硬件的要求更低,可能会再次拉低大模型的使用成本。
2026年的春节,或许我们真的能看到一个拥有“电子脑”+“外挂硬盘”的国产大模型天花板诞生。