当AI开始读懂生命语言:通用生物人工智能与动物育种新未来

当AI开始读懂“生命语言”:

通用生物人工智能与动物育种的新未来

过去几年,人工智能在生物学中的突破越来越密集:从 AlphaFold 改写蛋白结构预测,到各种 DNA、RNA、蛋白和单细胞模型不断涌现,AI 正在快速进入生命科学的核心地带。最新的一篇 Nature Biotechnology 综述提出了一个值得高度关注的概念:Generalist Biological Artificial Intelligence,GBAI,也就是“通用生物人工智能”。作者认为,未来真正有潜力改变生物学的,不再只是某个模型在某个任务上更强,而是能够跨越 DNA、RNA、蛋白、细胞、组织乃至病理成像等多个层级,统一理解并建模“生命语言”的智能系统。

这篇综述最重要的价值,在于它不是简单罗列近年的热门模型,而是试图回答一个更根本的问题:AI 能否像理解自然语言一样,理解从基因到表型的生命信息流? 作者给出的答案是:方向已经非常清晰,但真正的通用生物AI仍处于起步阶段。

一、什么是“通用生物人工智能”?

文章把 GBAI 定义为一种统一系统:它不仅能处理 DNA、RNA、蛋白质、显微图像、细胞表示等不同类型的数据,还能够在这些层级之间进行联动预测与生成,完成跨域生物任务。换句话说,GBAI 不是单纯做一个序列分类器,也不是只预测一个结构,而是希望打通中心法则,从 DNA 到细胞功能,再到更高层级的系统表现。作者同时指出,这类系统未来还可能与 virtual cell、AI-driven digital organism 这样的更大愿景连接起来,成为数字生物学的重要基础。

如果用一句更直白的话来概括:
过去的生物AI更像“分科专家”,未来的 GBAI 想成为“生命系统的通才”。

二、这篇综述的核心图:一张图看懂 GBAI

文章第 3 页的 Figure 1 是整篇综述最关键的一张图。它把 GBAI 的整体逻辑画得很清楚:左边是输入,包括 DNA 序列、RNA 序列、蛋白序列、蛋白功能、基因表达、空间转录组、细胞成像和病理信息;中间是统一的 GBAI;右边则分成两类输出:prediction 和 design。预测任务包括突变是否导致耐药、某个转运蛋白可能结合什么分子、某个基因多态性会影响哪些通路等;设计任务则进一步走向设计转运蛋白变体、优化启动子序列、设计只识别特定状态蛋白的抗体。


image.png

这张图真正传达的,不只是“数据更多了”,而是一个范式转变:
生物AI正在从“解释生命”走向“设计生命”。
这也是整篇文章最有冲击力的地方。

三、GBAI 不是从零开始,它建立在几股技术浪潮之上

综述首先回顾了“生物语言模型”的兴起。现在很多模型已经把 DNA、RNA、氨基酸序列,甚至基因表达谱,当作一种“语言”来处理,核心方法大多来自 transformer 和 masked language modeling。DNA 模型可用于变异效应预测和序列生成;RNA 模型可预测二级结构、翻译效率和表达水平;蛋白语言模型可用于功能、稳定性和突变筛选;单细胞模型则把细胞的表达状态转化为“细胞语言”,用于细胞注释、batch correction 和扰动预测。文章还提到,类似的方法已经开始进入代谢组学中的质谱数据分析。

但作者也很清醒地指出,当前这类模型仍有不少限制。例如,核酸语言模型在超长距离依赖上仍然受上下文长度限制;蛋白语言模型在复杂任务上通常还不如整合结构信息的方法;单细胞语言模型虽然很有潜力,但在很多任务上仍停留在 proof-of-concept 阶段。也就是说,今天的生物语言模型已经证明了“生命序列可以做表示学习”,但离真正跨层级、跨模态、跨任务的统一智能还有距离。

四、从“读序列”走向“看结构”和“做设计”

这篇综述的第二条主线,是结构预测与分子设计。文章重点讨论了 AlphaFold 3、RoseTTAFold All-Atom、Boltz-2、RFdiffusion3、ATOMICA 等代表模型。它们共同推动了一件事:生物AI不再只停留在一维序列,而开始进入三维结构、分子互作和功能设计层面。AlphaFold 3 已把预测对象从蛋白扩展到核酸、配体和离子等多种分子类型;RFdiffusion 则把AI进一步推向蛋白设计;ATOMICA 试图建立一个跨分子模态的统一相互作用表示空间。

但这里的关键词仍然是“强大而未完成”。文章指出,这类模型在非常规配体、复杂分子体系、动态行为和实验闭环验证方面依然存在明显瓶颈。也就是说,今天的AI已经能“画出一个很像样的分子世界”,但距离真正稳定、可靠地“设计出可工作的生物分子”,仍需要更长的路。

五、单细胞、空间组学和成像:AI 正在往更高层级走

如果说 DNA/RNA/蛋白是分子层,那么单细胞、空间组学和病理成像就是向细胞和组织层迈进。综述中专门梳理了 scGPT、Geneformer、UCE、STATE、scGPT-spatial 等模型,它们在细胞注释、细胞状态预测、扰动效应估计和空间表达建模方面展现出很强潜力。尤其重要的是,这意味着 AI 不再只是在“读分子”,而开始试图理解细胞系统。

在显微和病理图像方面,CellPose 2、SubCell、Virchow2、UNI、PLIP 等模型同样代表了快速进展。它们能够处理细胞分割、细胞形态、亚细胞定位、病理分类、癌症识别和图文检索等任务。作者的判断是,视觉基础模型已经深入生命科学核心场景,但其在分布外样本、罕见条件、临床验证和真实应用中的泛化能力,仍然需要更充分的检验。

六、Table 1 给出了当前生物AI的“全景地图”

如果说 Figure 1 画的是未来,那么 Table 1 总结的就是现在。这个表格系统梳理了当前代表性生物AI模型的优势与局限,覆盖序列模型、结构设计模型、单细胞与空间组学模型、显微与代谢组模型、病理模型等多个方向。


image.png

image.png

从这张表能看出一个非常清楚的结论:
今天的生物AI已经出现很多强模型,但它们大多仍是“局部最优”。

比如,Nucleotide Transformer、Evo 2、GET、ESM-2 展示了序列模型在长上下文、多物种和多任务方面的潜力,但依然受限于远距离依赖、人类变异泛化和特定任务适应能力。AlphaFold 3、RoseTTAFold All-Atom、RFdiffusion3 和 ATOMICA 把结构预测和分子设计推向了新高度,但在动态行为、复杂互作和湿实验验证方面仍有限制。scGPT、Geneformer、UCE、STATE 等单细胞模型说明细胞级基础模型已成趋势,但零样本泛化、batch effect 和真实扰动模拟仍是难点。CellPose 2、SubCell、Virchow2、UNI、PLIP 等显微和病理模型则显示视觉基础模型非常强,但其临床级、生产级稳健性还远未完全建立。

所以,Table 1 最值得记住的一点不是“哪个模型最厉害”,而是:
通用生物智能的时代还没真正到来,但关键零件已经基本齐了。

七、这篇综述还提醒了一个很重要的问题:不是所有事情都要一个大模型完成

文章专门讨论了 specialized models,也就是专用模型。作者并不认为未来所有任务都该被一个统一大模型包打天下。相反,在很多场景里,为某一任务精心设计的专用模型仍然非常有效,它们可以被纳入更大的工作流中,作为嵌入提取器、适配层、评估器或 agent 调用的专业模块。也就是说,未来的 GBAI 很可能不是“单个超级模型”,而是“统一骨架 + 多个专用工具”的协同系统。

这个判断其实非常现实。因为生物学本身就不是单一任务,而是一个高度异质、强上下文依赖、强实验约束的复杂系统。真正可落地的通用生物AI,更像是一个会调度不同专家的“科研智能体”。

八、GBAI 最终想去哪里?

文章把未来方向概括得非常明确:一方面是 agentic AI for biology,也就是具备规划、调用工具、生成假设和辅助实验设计能力的科研代理;另一方面是 virtual cell integration,即将多尺度生物信息和模型整合进虚拟细胞框架中,形成更系统的 in silico 生物模拟。作者认为,一旦这些基础打牢,GBAI 不仅能帮助解释疾病通路、发现生物标志物、自动设计治疗分子,还可能真正推动数字生物学从“辅助分析”走向“系统模拟”。

九、Figure 3 告诉我们:真正的难点不是“模型还不够大”

文章后面用 Figure 3 总结了当前生物AI面临的几大挑战,包括 joint encoding space、多模态数据、biological complexity、context length 和 experimental validation。换句话说,难点并不只是算力,也不只是参数量,而是更深层的问题:如何让模型在同一个表示空间里同时理解核苷酸、基因表达、蛋白结构和多组学信息;如何把二维、三维、时间动态和长距离依赖统筹起来;以及最关键的,如何把 in silico 预测真正闭环到 in vitro 和 in vivo 验证。

这张图其实非常值得反复看。因为它把生物AI和通用自然语言AI的本质差别点出来了:
生命系统不是单层文本,它是一个跨尺度、动态、可扰动、必须被实验验证的复杂系统。

十、这篇综述最值得记住的三句话

第一,未来最重要的不是单个DNA模型、蛋白模型或病理模型,而是能够跨越这些层级的统一系统。

第二,生物AI的目标不只是“预测”,而是逐步走向“设计”和“模拟”。

第三,真正限制 GBAI 落地的,不是想象力,而是高质量数据、跨模态表示能力和实验验证闭环。

十一、面向动物育种:这意味着什么?

下面这一部分,是基于这篇综述思想做的延伸,并不是原文专门讨论动物育种,但它对育种领域的启发非常直接。

如果把 GBAI 的框架放到动物育种中,一个非常自然的推论是:未来的育种不应再只是“基因型到育种值”的单步映射,而应该走向“基因变异—分子调控—细胞状态—器官功能—个体表型”的多尺度建模。 这其实就是把文章提出的跨层级、跨模态生命智能思想,迁移到动物系统里。这个推论之所以成立,是因为综述明确强调了 GBAI 的核心在于整合 DNA、RNA、蛋白、细胞、成像和系统层信息,并完成跨域预测与设计。

对动物育种来说,这种框架最可能带来三方面变化。第一,是复杂性状预测方式的升级。未来不只是用 SNP 预测表型,而是把转录组、代谢组、微生物组、影像表型、行为监测和环境暴露纳入同一个模型,建立真正的系统预测。第二,是数字动物与动态表型的兴起。传感器、图像、自动化生产记录和多组学数据一旦统一建模,育种对象就不再只是一个静态个体,而是一个可以被连续追踪、连续建模的生命系统。第三,是多目标智能育种。生产性能、饲料效率、健康福利、环境排放和抗逆性状之间往往存在权衡,未来更强的AI框架有可能帮助我们做真正的系统优化,而不仅仅是单性状改良。这里的推断逻辑,正来自综述对“prediction + design”“multimodal integration”和“virtual biological simulation”方向的强调。

当然,动物育种要真正进入这个阶段,挑战也非常现实:跨群体数据标准不一致,高质量纵向表型稀缺,多组学样本量不足,空间和时间维度数据难获得,实验验证成本高。这些问题,和综述中提出的数据限制、生物复杂性、上下文尺度与实验验证瓶颈,本质上是同一类问题。

但从长期看,方向已经非常清楚:
未来的动物育种,不只是“用AI做更准的预测”,而是用多尺度生物AI去建模动物生命系统本身。

结语

这篇综述最打动我的地方,是它没有把生物AI描绘成一个简单的“更大模型故事”,而是把整个领域重新放回了生命科学的主线问题:我们能否真正理解,从基因到表型,这条生命信息流是如何被编码、调控、执行和重构的?
GBAI 给出的,不是终点,而是一张路线图。

对于生物学来说,这可能意味着从“读懂生命”走向“设计生命”。
而对于动物育种来说,这很可能意味着从“统计选择”走向“系统智能育种”。

image.png
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容