如何评价DeepSeek的「条件记忆」和字节「Over-Encoding」的关联

该图由Ai生成

如果说2025年的大模型卷的是“逻辑推理”（如DeepSeek R1），那么2026年开年的第一场技术风暴，卷的则是模型的“脑容量革命”。

就在这两天，DeepSeek（深度求索）发布了一篇由创始人梁文锋亲自署名的重磅论文《Conditional Memory via Scalable Lookup》（基于可扩展查找的条件记忆）。业内纷纷猜测，这极有可能就是即将在春节前后发布的 DeepSeek V4 的核心架构。

有意思的是，技术圈敏锐地发现，这项技术与字节跳动 Seed 团队此前提出的 「Over-Encoding」（过编码） 存在着一种奇妙的“学霸接力”关系。

今天，我们就用大白话拆解一下：这两大技术到底在搞什么？它们之间又有着怎样的“爱恨情仇”？

一、起源：大模型其实是个“死记硬背”的苦力

该图由Ai生成

要理解这两个技术，首先要明白现在大模型的一个“致命缺陷”：

当你问AI“法国首都是哪”或者“《红楼梦》作者是谁”这种事实性问题时，模型虽然能答对，但它在后台极其费劲。它需要动用全身几千亿个参数，经过几十层的神经网络计算，最后才吐出那个答案。

这就像为了查一个英语单词，你不去翻字典，而是动用全身细胞进行了一场深度逻辑推理。太浪费了！ 字节Seed团队和DeepSeek团队都敏锐地意识到了这一点：必须把“记性（知识检索）”和“智商（推理逻辑）”分开。

二、字节Seed的“直球”攻击：Over-Encoding

该图由Ai生成

字节跳动 Seed 团队在 2024 年底提出的「Over-Encoding」方法（见论文《Over-Tokenized Transformer》），给出的解决方案非常硬核且直观：既然词典不够用，那就换个超级巨大的词典。

技术逻辑： 传统的模型“词表”可能只有10万个词，而字节建议将其扩展到几百万甚至千万量级（N-gram）。

形象比喻： 以前学生考试只准带脑袋，字节说：“我直接发给你一本包含所有公式、案例、常识的‘超级手册’。” 这样学生在答题时，遇到死记硬背的东西直接“查表”就行。

结论： 字节证明了，只要输入端的“字典”足够大，模型不需要增加层数，考试分数（性能）就能直接起飞。

三、 DeepSeek的“神来之笔”：从“字典”进化到“条件记忆”

该图由Ai生成

如果说字节是发现了“字典”好用，那么 DeepSeek 刚刚发布的「条件记忆（Engram）」则是把这本字典做成了“外挂硬盘”，并给出了精准的使用说明书。

DeepSeek 在字节的基础上做了三个关键进化：

从“静态查表”到“动态筛选”： 字节的方案里，字典是死板的。DeepSeek 引入了“门控机制（Gating）”。模型会根据当下的语境决定：“这段记忆现在有用吗？”如果有用才调取，没用就过滤。这就是所谓的“条件记忆”。

暴力拆解“查”与“算”： DeepSeek 提出了一个著名的“U型 Scaling Law”：他们发现，如果把 20%-25% 的参数分给“记忆模块（Engram）”，剩下的留给“推理模块（MoE）”，模型的综合表现（代码、数学、知识）是最好的。

工程级的“神操作”： DeepSeek 发现，这些海量的记忆参数完全可以存在 CPU 内存里，而不是珍贵的 GPU 显存里。这意味着，未来的 AI 可以拥有近乎无限的知识库，却不增加英伟达显卡的负担。

四、评价：这是中国大模型团队的一场“学霸接力”

该图由Ai生成

如何评价这两者的关联？我认为这标志着AI 竞争正式进入了“下半场”：架构深水区。

字节 Seed 是“开路先锋”： 他们用实验数据捅破了那层窗户纸，告诉全世界——Transformer 原生的记忆机制效率极低，扩充词表（Over-Encoding）是条通天大路。

DeepSeek 是“集大成者”： 他们接过了接力棒，通过更优雅的数学设计（Engram）解决了字节方案中“数据冗余”和“检索噪声”的问题，并实现了工程落地。

网友神评： “字节发现了矿，DeepSeek 把矿炼成了金子，还顺便把金店开到了 CPU 内存里。”

五、DeepSeek V4 会是“终结者”吗？

该图由Ai生成

从目前披露的论文来看，DeepSeek V4 极有可能不再是一个纯粹的“计算引擎”，而是一个“计算+记忆”的共生体。

这意味着：

更聪明： 逻辑推理不再被繁琐的知识记忆所干扰，推理深度会大幅提升。

更博学： 它可以轻而易举地“背下”整个图书馆，而不会变笨。

更省钱： 这种架构对硬件的要求更低，可能会再次拉低大模型的使用成本。

2026年的春节，或许我们真的能看到一个拥有“电子脑”+“外挂硬盘”的国产大模型天花板诞生。

如何评价DeepSeek的「条件记忆」和字节「Over-Encoding」的关联