Evo 2基因组语言模型:跨物种功能变异预测—在家畜应用测试

一、背景:从语言模型到基因组理解

近年来,生物信息学正经历一场由人工智能驱动的范式转变。继自然语言模型(如GPT系列)在文本领域取得革命性突破之后,类似的“基因组语言模型(Genomic Language Model, GLM)”开始在生命科学中崭露头角。这类模型通过在大规模DNA序列上进行自监督学习,从而“读懂”核苷酸序列中的统计规律、保守性与功能特征。

其中,Evo 2(Brixi et al., 2025)被认为是目前规模最大、性能最全面的基因组语言模型之一。它基于9.3 万亿个碱基(token)训练,涵盖所有生命域(bacteria、archaea、eukaryotes),采用改进的StripedHyena 2架构,能够在单碱基分辨率下处理长达 1 Mbp 的DNA序列。

Evo 2的核心创新在于:

    1. 同时支持生成式(next-token prediction)与判别式(likelihood scoring)任务;
    1. 以零样本分类(zero-shot)与嵌入向量(embedding)线性探测两种方式实现变异功能预测;
    1. 拥有强大的跨物种泛化能力,为农畜遗传学带来新的应用可能。

二、研究概述:Evo 2在家畜功能变异分类中的验证

Jiang et al.( 2025, 预印版)利用Evo 2对八种家畜(牛、羊、猪、马、狗、猫、鸡、山羊)的功能性单核苷酸变异(SNV)进行了系统评估,建立了首个跨物种功能变异分类框架。

研究以OMIA数据库的721 个已知功能变异为阳性样本,并采用两种对照集策略:

  • Variant-type blind:随机抽取全基因组SNP,不区分突变类型;

  • Variant-type matching:按突变类别(missense、stop-gain、splicing 等)匹配对照。

分析路线

image.png

主要结果:

  • 零样本分类(zero-shot)
    Evo 2在无监督条件下即可识别功能变异,AUROC = 0.934,AUPRC = 0.832。
    在八物种中,AUROC介于 0.824–0.954 之间(平均 0.909),表现稳定。

  • 线性探测(linear probing)
    基于Evo 2嵌入的Lasso分类器在跨物种交叉验证中表现良好,
    平均 AUROC = 0.921(blind),0.801(matching)。
    说明模型能有效区分同类型变异中的功能差异。

三、理论意义与应用潜力

主要分为三部分:


image.png

3.1 解决连锁不平衡下的因果变异定位难题

在家畜基因组中,广泛存在长程连锁不平衡(LD),使得传统GWAS难以区分因果位点与完全连锁的非功能变异。Evo 2的序列驱动分析不依赖群体关联信号,能在完美LD条件下识别功能性差异,为精细定位(fine-mapping)提供了独立信息源。

3.2 评估种畜的突变

通过汇总个体全基因组的Evo 2功能打分,可以计算整体deleterious mutation load,为种畜选拔提供风险评估参考。该方法超越传统“已知有害突变筛查”,可捕获新的潜在有害等位基因。

3.3 整合至基因组预测框架

Evo 2的嵌入可作为序列层面的协变量纳入GEBV模型,实现混合基因组预测(hybrid genomic prediction)。与传统0/1/2 编码相比,这种嵌入能表征序列结构、保守性及调控关系,有望提高对复杂性状的预测准确度。

四、技术限制与计算挑战

尽管Evo 2具备卓越性能,其在大规模育种应用中仍受限于计算资源。
处理单个 8,192 bp 序列约需 0.5 秒 (H100 GPU),若应用于全基因组(~2.5 Gbp)则需约 85 小时/个体。因此,目前更现实的策略是:

  • 聚焦GWAS或候选区域的区域性分析;

  • 针对核心种畜开展重点个体评估;

  • 或构建混合模型,结合传统SNP效应与Evo 2局部嵌入。

五、与DeepMind AlphaGenome的对比:两种基因组智能的路径差异

PS: AlphaGenome最近被发表,也是专为功能预测设计,小编自己整理两者比较的差异


image.png

六、未来展望:从模型性能到育种实践的融合

6.1 构建跨物种功能变异基准(Benchmark)

当前AlphaGenome的调控预测主要局限于人类和模式动物,而Evo 2则展示了在家畜中的广泛适用性。未来可通过统一跨物种基准测试集(Cross-species Functional Benchmark)比较二者在变异分类、调控预测与迁移学习方面的性能。

6.2 多模态整合与迁移学习

AlphaGenome的多维输出(ATAC、RNA、Hi-C 等)可为Evo 2嵌入提供生物学解释层;Evo 2的序列表征可反哺AlphaGenome的跨物种迁移模块。两者的结合或将催生“通用基因组智能体(Universal Genomic Agent)”

6.3 计算效率与模型压缩

针对Evo 2的计算瓶颈,可探索参数剪枝、知识蒸馏及低秩近似以提升推理效率,从而使其在育种评估中实现常规化部署。

6.4 伦理与可持续育种

随着AI参与育种决策,对突变与遗传多样性的理解需同步提升。未来应建立AI辅助遗传改良的伦理与监管框架,确保技术收益与物种健康的平衡。

七、结语

Evo 2的出现标志着基因组学进入“可读懂DNA语义”的时代。其在多物种功能变异识别中的出色表现,为农畜遗传改良提供了新的计算工具和理论支撑。尽管仍受限于计算资源与机制解释,Evo 2的成功验证了基于序列的AI模型在超越群体关联分析、揭示功能本质上的巨大潜力。

与之相对,DeepMind AlphaGenome在多模态调控建模与人类功能注释中展现出强劲实力。二者代表了基因组AI的两条互补路径:

  • Evo 2 —— 从语言角度理解基因组的“句法”;

  • AlphaGenome —— 从功能角度解读基因组的“语义”。

未来,当这两类模型在开放生态中实现互补与融合,跨物种基因功能预测与精准育种将迎来全新的智能化阶段。与此同时,构建以农业组学与表型数据为核心的专用大语言模型,有望进一步推动动植物复杂性状解析与智能化育种决策的革新。

参考:

https://doi.org/10.21203/rs.3.rs-7579108/v1

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容