PNAS | 康奈尔大学在植物基因组跨物种建模领域取得新进展

2025年6月美国康奈尔大学Jingjing Zhai等人,在PNAS期刊上发表名为Cross-species modeling of plant genomes at single-nucleotide resolution using a pretrained DNA language model的文章。研究提出了一个基于Caduceus架构的植物DNA语言模型PlantCaduceus,实现了跨物种单核苷酸精度的基因组功能预测,为植物基因组注释与作物育种提供了高效计算工具。

PlantCaduceus模型基于Caduceus架构Mamba结构的状态空间模型,支持双向序列建模与反向互补等。模型输入为512 bp的DNA序列,采用单核苷酸token化,并通过掩码语言建模进行预训练,掩盖15%的核苷酸位置,并依据BERT策略进行预测。

图1.模型架构、预训练物种与表征可视化

PlantCaduceus具备高效迁移性,在预训练未涵盖的物种上仍能保持优异性能。研究显示,从拟南芥迁移至玉米时,PlantCaduceus在翻译起始位点预测的AUPRC仅从0.789轻微下降至0.764,显著优于CNN+LSTM等基线模型,尤其在剪接位点和翻译起始位点预测方面表现突出,分别达到最佳现有模型的1.45倍和7.23倍。

图2.在跨物种基因位点预测任务中的卓越性能

模型能有效捕捉进化保守信号,无需多序列比对即可预测进化约束,在非编码区表现尤为出色,AUROC达0.904

图3.基于序列的进化约束预测

该模型能够有效整合GWAS信号识别致病变异,其零样本变异效应预测能力与蛋白质语言模型相当,所识别的有害突变具有更低的等位基因频率(平均低三倍)。在拟南芥19个有害突变中,有15个突变被PlantCaduceus的零样本评分列为前1%或前10%,表明其高有害性;在玉米中,它能准确识别出传统方法难以发现的W578R(甜味因果突变)。

图4.整合GWAS与零样本评分精准定位因果变异

该研究开发并验证了一个专为植物基因组设计的DNA语言模型PlantCaduceus,解决了植物基因组跨物种功能预测的难题,具有高效迁移性、架构创新、应用广泛性等特点,无需大量标注数据或多序列比对,为植物功能基因组学研究、作物育种中的变异筛选和基因编辑靶点识别提供了强大且高效的计算工具。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容