当AI开始读懂生命语言：通用生物人工智能与动物育种新未来

当AI开始读懂“生命语言”：

通用生物人工智能与动物育种的新未来

过去几年，人工智能在生物学中的突破越来越密集：从 AlphaFold 改写蛋白结构预测，到各种 DNA、RNA、蛋白和单细胞模型不断涌现，AI 正在快速进入生命科学的核心地带。最新的一篇 Nature Biotechnology 综述提出了一个值得高度关注的概念：Generalist Biological Artificial Intelligence，GBAI，也就是“通用生物人工智能”。作者认为，未来真正有潜力改变生物学的，不再只是某个模型在某个任务上更强，而是能够跨越 DNA、RNA、蛋白、细胞、组织乃至病理成像等多个层级，统一理解并建模“生命语言”的智能系统。

这篇综述最重要的价值，在于它不是简单罗列近年的热门模型，而是试图回答一个更根本的问题：AI 能否像理解自然语言一样，理解从基因到表型的生命信息流？作者给出的答案是：方向已经非常清晰，但真正的通用生物AI仍处于起步阶段。

一、什么是“通用生物人工智能”？

文章把 GBAI 定义为一种统一系统：它不仅能处理 DNA、RNA、蛋白质、显微图像、细胞表示等不同类型的数据，还能够在这些层级之间进行联动预测与生成，完成跨域生物任务。换句话说，GBAI 不是单纯做一个序列分类器，也不是只预测一个结构，而是希望打通中心法则，从 DNA 到细胞功能，再到更高层级的系统表现。作者同时指出，这类系统未来还可能与 virtual cell、AI-driven digital organism 这样的更大愿景连接起来，成为数字生物学的重要基础。

如果用一句更直白的话来概括：
过去的生物AI更像“分科专家”，未来的 GBAI 想成为“生命系统的通才”。

二、这篇综述的核心图：一张图看懂 GBAI

文章第 3 页的 Figure 1 是整篇综述最关键的一张图。它把 GBAI 的整体逻辑画得很清楚：左边是输入，包括 DNA 序列、RNA 序列、蛋白序列、蛋白功能、基因表达、空间转录组、细胞成像和病理信息；中间是统一的 GBAI；右边则分成两类输出：prediction 和 design。预测任务包括突变是否导致耐药、某个转运蛋白可能结合什么分子、某个基因多态性会影响哪些通路等；设计任务则进一步走向设计转运蛋白变体、优化启动子序列、设计只识别特定状态蛋白的抗体。

image.png

这张图真正传达的，不只是“数据更多了”，而是一个范式转变：
生物AI正在从“解释生命”走向“设计生命”。
这也是整篇文章最有冲击力的地方。

三、GBAI 不是从零开始，它建立在几股技术浪潮之上

综述首先回顾了“生物语言模型”的兴起。现在很多模型已经把 DNA、RNA、氨基酸序列，甚至基因表达谱，当作一种“语言”来处理，核心方法大多来自 transformer 和 masked language modeling。DNA 模型可用于变异效应预测和序列生成；RNA 模型可预测二级结构、翻译效率和表达水平；蛋白语言模型可用于功能、稳定性和突变筛选；单细胞模型则把细胞的表达状态转化为“细胞语言”，用于细胞注释、batch correction 和扰动预测。文章还提到，类似的方法已经开始进入代谢组学中的质谱数据分析。

但作者也很清醒地指出，当前这类模型仍有不少限制。例如，核酸语言模型在超长距离依赖上仍然受上下文长度限制；蛋白语言模型在复杂任务上通常还不如整合结构信息的方法；单细胞语言模型虽然很有潜力，但在很多任务上仍停留在 proof-of-concept 阶段。也就是说，今天的生物语言模型已经证明了“生命序列可以做表示学习”，但离真正跨层级、跨模态、跨任务的统一智能还有距离。

四、从“读序列”走向“看结构”和“做设计”

这篇综述的第二条主线，是结构预测与分子设计。文章重点讨论了 AlphaFold 3、RoseTTAFold All-Atom、Boltz-2、RFdiffusion3、ATOMICA 等代表模型。它们共同推动了一件事：生物AI不再只停留在一维序列，而开始进入三维结构、分子互作和功能设计层面。AlphaFold 3 已把预测对象从蛋白扩展到核酸、配体和离子等多种分子类型；RFdiffusion 则把AI进一步推向蛋白设计；ATOMICA 试图建立一个跨分子模态的统一相互作用表示空间。

但这里的关键词仍然是“强大而未完成”。文章指出，这类模型在非常规配体、复杂分子体系、动态行为和实验闭环验证方面依然存在明显瓶颈。也就是说，今天的AI已经能“画出一个很像样的分子世界”，但距离真正稳定、可靠地“设计出可工作的生物分子”，仍需要更长的路。

五、单细胞、空间组学和成像：AI 正在往更高层级走

如果说 DNA/RNA/蛋白是分子层，那么单细胞、空间组学和病理成像就是向细胞和组织层迈进。综述中专门梳理了 scGPT、Geneformer、UCE、STATE、scGPT-spatial 等模型，它们在细胞注释、细胞状态预测、扰动效应估计和空间表达建模方面展现出很强潜力。尤其重要的是，这意味着 AI 不再只是在“读分子”，而开始试图理解细胞系统。

在显微和病理图像方面，CellPose 2、SubCell、Virchow2、UNI、PLIP 等模型同样代表了快速进展。它们能够处理细胞分割、细胞形态、亚细胞定位、病理分类、癌症识别和图文检索等任务。作者的判断是，视觉基础模型已经深入生命科学核心场景，但其在分布外样本、罕见条件、临床验证和真实应用中的泛化能力，仍然需要更充分的检验。

六、Table 1 给出了当前生物AI的“全景地图”

如果说 Figure 1 画的是未来，那么 Table 1 总结的就是现在。这个表格系统梳理了当前代表性生物AI模型的优势与局限，覆盖序列模型、结构设计模型、单细胞与空间组学模型、显微与代谢组模型、病理模型等多个方向。

image.png

从这张表能看出一个非常清楚的结论：
今天的生物AI已经出现很多强模型，但它们大多仍是“局部最优”。

比如，Nucleotide Transformer、Evo 2、GET、ESM-2 展示了序列模型在长上下文、多物种和多任务方面的潜力，但依然受限于远距离依赖、人类变异泛化和特定任务适应能力。AlphaFold 3、RoseTTAFold All-Atom、RFdiffusion3 和 ATOMICA 把结构预测和分子设计推向了新高度，但在动态行为、复杂互作和湿实验验证方面仍有限制。scGPT、Geneformer、UCE、STATE 等单细胞模型说明细胞级基础模型已成趋势，但零样本泛化、batch effect 和真实扰动模拟仍是难点。CellPose 2、SubCell、Virchow2、UNI、PLIP 等显微和病理模型则显示视觉基础模型非常强，但其临床级、生产级稳健性还远未完全建立。

所以，Table 1 最值得记住的一点不是“哪个模型最厉害”，而是：
通用生物智能的时代还没真正到来，但关键零件已经基本齐了。

七、这篇综述还提醒了一个很重要的问题：不是所有事情都要一个大模型完成

文章专门讨论了 specialized models，也就是专用模型。作者并不认为未来所有任务都该被一个统一大模型包打天下。相反，在很多场景里，为某一任务精心设计的专用模型仍然非常有效，它们可以被纳入更大的工作流中，作为嵌入提取器、适配层、评估器或 agent 调用的专业模块。也就是说，未来的 GBAI 很可能不是“单个超级模型”，而是“统一骨架 + 多个专用工具”的协同系统。

这个判断其实非常现实。因为生物学本身就不是单一任务，而是一个高度异质、强上下文依赖、强实验约束的复杂系统。真正可落地的通用生物AI，更像是一个会调度不同专家的“科研智能体”。

八、GBAI 最终想去哪里？

文章把未来方向概括得非常明确：一方面是 agentic AI for biology，也就是具备规划、调用工具、生成假设和辅助实验设计能力的科研代理；另一方面是 virtual cell integration，即将多尺度生物信息和模型整合进虚拟细胞框架中，形成更系统的 in silico 生物模拟。作者认为，一旦这些基础打牢，GBAI 不仅能帮助解释疾病通路、发现生物标志物、自动设计治疗分子，还可能真正推动数字生物学从“辅助分析”走向“系统模拟”。

九、Figure 3 告诉我们：真正的难点不是“模型还不够大”

文章后面用 Figure 3 总结了当前生物AI面临的几大挑战，包括 joint encoding space、多模态数据、biological complexity、context length 和 experimental validation。换句话说，难点并不只是算力，也不只是参数量，而是更深层的问题：如何让模型在同一个表示空间里同时理解核苷酸、基因表达、蛋白结构和多组学信息；如何把二维、三维、时间动态和长距离依赖统筹起来；以及最关键的，如何把 in silico 预测真正闭环到 in vitro 和 in vivo 验证。

这张图其实非常值得反复看。因为它把生物AI和通用自然语言AI的本质差别点出来了：
生命系统不是单层文本，它是一个跨尺度、动态、可扰动、必须被实验验证的复杂系统。

十、这篇综述最值得记住的三句话

第一，未来最重要的不是单个DNA模型、蛋白模型或病理模型，而是能够跨越这些层级的统一系统。

第二，生物AI的目标不只是“预测”，而是逐步走向“设计”和“模拟”。

第三，真正限制 GBAI 落地的，不是想象力，而是高质量数据、跨模态表示能力和实验验证闭环。

十一、面向动物育种：这意味着什么？

下面这一部分，是基于这篇综述思想做的延伸，并不是原文专门讨论动物育种，但它对育种领域的启发非常直接。

如果把 GBAI 的框架放到动物育种中，一个非常自然的推论是：未来的育种不应再只是“基因型到育种值”的单步映射，而应该走向“基因变异—分子调控—细胞状态—器官功能—个体表型”的多尺度建模。这其实就是把文章提出的跨层级、跨模态生命智能思想，迁移到动物系统里。这个推论之所以成立，是因为综述明确强调了 GBAI 的核心在于整合 DNA、RNA、蛋白、细胞、成像和系统层信息，并完成跨域预测与设计。

对动物育种来说，这种框架最可能带来三方面变化。第一，是复杂性状预测方式的升级。未来不只是用 SNP 预测表型，而是把转录组、代谢组、微生物组、影像表型、行为监测和环境暴露纳入同一个模型，建立真正的系统预测。第二，是数字动物与动态表型的兴起。传感器、图像、自动化生产记录和多组学数据一旦统一建模，育种对象就不再只是一个静态个体，而是一个可以被连续追踪、连续建模的生命系统。第三，是多目标智能育种。生产性能、饲料效率、健康福利、环境排放和抗逆性状之间往往存在权衡，未来更强的AI框架有可能帮助我们做真正的系统优化，而不仅仅是单性状改良。这里的推断逻辑，正来自综述对“prediction + design”“multimodal integration”和“virtual biological simulation”方向的强调。

当然，动物育种要真正进入这个阶段，挑战也非常现实：跨群体数据标准不一致，高质量纵向表型稀缺，多组学样本量不足，空间和时间维度数据难获得，实验验证成本高。这些问题，和综述中提出的数据限制、生物复杂性、上下文尺度与实验验证瓶颈，本质上是同一类问题。

但从长期看，方向已经非常清楚：
未来的动物育种，不只是“用AI做更准的预测”，而是用多尺度生物AI去建模动物生命系统本身。

结语

这篇综述最打动我的地方，是它没有把生物AI描绘成一个简单的“更大模型故事”，而是把整个领域重新放回了生命科学的主线问题：我们能否真正理解，从基因到表型，这条生命信息流是如何被编码、调控、执行和重构的？
GBAI 给出的，不是终点，而是一张路线图。

对于生物学来说，这可能意味着从“读懂生命”走向“设计生命”。
而对于动物育种来说，这很可能意味着从“统计选择”走向“系统智能育种”。

image.png

当AI开始读懂生命语言：通用生物人工智能与动物育种新未来