2024年8月,佛山鲲鹏现代农业研究院联合美国密西根州立大学,在Nature Communications杂志上发表了题为“Prediction of plant complex traits via integration of multi-omics data”的研究论文,基于表型、基因组、转录组和甲基化修饰组数据对植物多个复杂性状进行预测,探究多组学数据对复杂性状的预测优势。
基于基因组、转录组和甲基化修饰组数据的模型能精准地预测拟南芥开花时间、基座叶数目、茎生叶数目等,但不同组学数据构建的模型识别出的基因之间相关性弱,且对性状预测的贡献是不同。
研究表明,对已知开花时间调控基因的鉴定会受到数据类型、数据形式和环境条件的影响。此外,研究使用426个已知开花时间调控基因的三类特征数据构建了一个随机森林模型,并利用该模型鉴定出了9个参与开花时间调控的非基准基因。
通过分析拟南芥不同品系中前20个重要基因的SHAP值(一种用于解释机器学习模型预测结果的方法),发现不同品系中,这些基因对开花时间预测的贡献存在差异。
通过整合三种组学数据能提升模型预测准确性,并精准识别基因特征间的互作网络。开花时间调控网络中,SOC1、FT、FLC 等基因存在显著的特征互作,且该网络还可揭示更多基因在不同遗传维度下潜在的调控关系。
该研究利用多组学数据预测拟南芥多个复杂性状。结果表明,不同组学数据构建的模型性能相当,但识别出的基因存在差异。通过SHAP分析,进一步揭示了基因贡献的品系特异性和潜在的遗传互作情况,为开花时间的遗传机制提供了新视角。
原文链接:doi.org/10.1038/s41467-024-50701-6