2025年2月,路易斯安那州立大学的José Crossa等人在Trends in Plant Science发表了题为Machine learning algorithms translate big data into predictive breeding accuracy的文章,系统阐述了机器学习和大数据技术如何基于基因组、表型和环境数据,提高子代品种性状的预测准确性,进而显著缩短育种周期。
植物育种的目标是开发出具有理想性状的品种,如抗病性、耐旱性、耐热性和高产等。基因组标记和高通量表型分析(HTP)技术的发展,提高了预测的准确性,减少了成本,并缩短育种周期。
现代植物育种的组成部分:
基因组学:分子标记、基因组预测等
表型组学:无人机、飞机、卫星图像等
环境数据:温度、太阳辐射、降水、土壤湿度等
通过整合基因组学、表型组学和环境数据,机器学习模型能够更精准地解析基因型与环境的互作,从而提高预测精度。Montesinos等人通过特定实验评估多组学整合的效果,发现其能大幅提升预测准确性,平均提升60%,最高达101%。
机器学习模型可以应用于自花授粉或异花授粉作物育种计划的各个阶段,尤其是在早期世代,当进行杂交(F1)和观察分离群体(F2、F3、F4)时,其对于选择最佳品种具有重要意义。例如,在CIMMYT(国际玉米和小麦改良中心)的小麦育种计划中,机器学习方法被用于选择最佳亲本和杂交组合,预测新品系的表现,缩短育种周期。
在基因组选择中,由于不同机器学习模型对不同数据及问题敏感度不同,可以选择适合的模型,提高预测的准确性。BMORS(贝叶斯多输出回归)模型堆叠在复杂数据中表现稳健;多性状多环境(MTME)模型利用性状与环境间的相关性,减少田间表型工作量。
该文章总结了机器学习在现代植物育种中的核心作用,强调多组学数据整合对提升预测精度和育种效率的重要性。机器学习在植物育种中的应用具有巨大的潜力,未来的研究应集中在进一步整合多组学数据,从而优化育种策略。
原文链接:doi.org/10.1016/j.tplants.2024.09.011