2025年7月,国际玉米小麦改良中心的José Crossa等人在Trends in Plant Science上发表了题为Expanding genomic prediction in plant breeding: harnessing big data, machine learning, and advanced software的文章。该文章回顾了传统机器学习与深度学习在基因组预测中的应用,揭示了复杂性状预测中线性与非线性模型的性能差异与适用范围,为植物育种提供了高效、精准的基因组选择方法论。

传统机器学习方法显著提升了基因组选择的预测效率,尤其擅长处理大数据和复杂性状。在线性混合模型中,rrBLUP/GBLUP模型因其稳定性成为多基因遗传性状预测的首选基础模型;而LASSO模型则在遗传力较低、相关位点较少的性状中展现出显著优势。

在预测非高斯性状时,专业模型能比传统数据转换方法更精准地适配性状的分布特性,从而提升预测准确性。例如,TGBLUP在病害抗性等序数性状中表现出色;而针对计数型性状,零膨胀泊松随机森林和负二项回归模型则展现出相较于传统模型的性能优势。

深度学习模型在整合多组学、G×E互作等复杂数据时展现出强大潜力,能有效捕捉非线性关系,但其应用受限于数据量、计算资源与模型可解释性。在具体应用中,多模态深度学习在部分年份的预测准确性可超越GBLUP,但表现并不稳定;而DNNGP凭借其多层分级结构,在大数据集上的预测精度则稳定优于GBLUP、LightGBM等主流模型。

近年来开发的多种开源软件和数据管理工具极大推动了基因组预测技术的普及与应用。专用R包(如IPLGP、MPS)通过整合多性状选择策略,为亲本筛选和杂交组合优化提供高效决策支持,显著提升育种效率。EnvRtype软件包通过集成21种关键环境因子数据,在降低实验成本的同时提高了基因组预测精度,为精准育种提供了可靠的技术保障。(注:由智农云芯开发的GSBrain P系列产品涵盖GBLUP、Bayes、各类深度学习网络架构,还支持用户可视化零代码构建任意架构的深度学习模型进行基因组预测或选择)
该文章系统梳理了基因组预测在植物育种中的关键技术及应用,重点阐释了传统机器学习与深度学习方法对提升遗传增益的核心价值。未来需加强跨学科协作,突破大数据管理与模型可解释性瓶颈,推动精准育种的规模化应用。