2025年6月美国康奈尔大学Jingjing Zhai等人,在PNAS期刊上发表名为Cross-species modeling of plant genomes at single-nucleotide resolution using a pretrained DNA language model的文章。研究提出了一个基于Caduceus架构的植物DNA语言模型PlantCaduceus,实现了跨物种单核苷酸精度的基因组功能预测,为植物基因组注释与作物育种提供了高效计算工具。

PlantCaduceus模型基于Caduceus架构和Mamba结构的状态空间模型,支持双向序列建模与反向互补等。模型输入为512 bp的DNA序列,采用单核苷酸token化,并通过掩码语言建模进行预训练,掩盖15%的核苷酸位置,并依据BERT策略进行预测。

PlantCaduceus具备高效迁移性,在预训练未涵盖的物种上仍能保持优异性能。研究显示,从拟南芥迁移至玉米时,PlantCaduceus在翻译起始位点预测的AUPRC仅从0.789轻微下降至0.764,显著优于CNN+LSTM等基线模型,尤其在剪接位点和翻译起始位点预测方面表现突出,分别达到最佳现有模型的1.45倍和7.23倍。

模型能有效捕捉进化保守信号,无需多序列比对即可预测进化约束,在非编码区表现尤为出色,AUROC达0.904。

该模型能够有效整合GWAS信号识别致病变异,其零样本变异效应预测能力与蛋白质语言模型相当,所识别的有害突变具有更低的等位基因频率(平均低三倍)。在拟南芥19个有害突变中,有15个突变被PlantCaduceus的零样本评分列为前1%或前10%,表明其高有害性;在玉米中,它能准确识别出传统方法难以发现的W578R(甜味因果突变)。

该研究开发并验证了一个专为植物基因组设计的DNA语言模型PlantCaduceus,解决了植物基因组跨物种功能预测的难题,具有高效迁移性、架构创新、应用广泛性等特点,无需大量标注数据或多序列比对,为植物功能基因组学研究、作物育种中的变异筛选和基因编辑靶点识别提供了强大且高效的计算工具。