讲解分析 frontiers |使用机器学习进行植物基因型到表型预测 (frontiersin.org)
1 . 从基因型到表型预测的机器学习方法
预测的方法分为传统机器学习和深度学习
传统机器学习中比较优秀的模型是:lightgbm,rf,gbr
深度学习用的比较多的是:CNN架构神经网络
有时候传统机器学习可以获得比深度学习模型更优的预测值。
遗传变异的编码
- 常见的遗传变异是SNP,编码成0/1,某个位置存在突变则是1,不存在则是0.或者是根据等位基因型,编码为0/1/2,Ref/杂合/Alt.
- 也有其他编码方式。例如:SNP,indel,编码区移码突变,划分为不同的编码值。
- 根据泛基因组的结果,基因上存在或不存在变异进行变异进行编码
- 根据LD联锁值进行辅助编码
- 根据突变的功能区进行编码,对编码区可以结合同义和非同义突变进行编码
特征值的选取
Curse of Dimensionality:维度的诅咒。
随着数据维度的增加,机器学习会出现以下问题:
- 数据稀疏性,维度增加后,数据点之间的距离很大,对基于距离或密度的算法,很难找到足够多的临近点。
- 计算复杂性,高纬度数据的计算量指数增长。
- 容易出现过拟合
解决方法: - 降低维度,PCA或t-SNE
- 减少特征值,从高维数据中选择出最相关的特征,去除无关或冗余的特征。这可以减少数据的维度,提高模型的性能和可解释性。
- 数据采样, 随机投影采样,重要性采样。减少数据的稀疏性和计算复杂性。
- 使用卷积神经网络
使用深度学习模型整合多类型表型数据进行预测
多种表型或环境数据或多种类型的基因型数据或产量数据如何整合到一起进行建模预测。
包括:无人机的数据(红外光谱、可见光光谱、激光雷达光谱),蛋白组,转录组,基因组、代谢组等组学数据联合分析。
上图中展示了2种不同的融合方法:
- 早融合:使用串联层将多种数据类型集合到每个样本的单个文件中
- 后融合:每个类型的特征值分别建模预测,最后在输出前把所有的特征值的权重融合。
使用深度学习模型进行植物表型预测的潜在挑战
i) 训练和模型部署期间数据收集和处理的一致协议(Hagiwara等人,2020 年;Mårtensson等人,2020 年)。由于 DL 模型直接从数据集中学习,因此改变数据收集和处理方法可能会增加噪声,从而导致模型性能不佳。保持一致的数据处理协议以及定期评估以确保模型仍然适合任务非常重要;
ii) 避免维度的诅咒(Altman 和 Krzywinski,2018 年)。高通量表型平台、高光谱相机和泛基因组组装可以生成大量数据,使模型更难定义哪些数据点代表性状。特征选择算法可以帮助选择最具代表性的数据子集来训练 DLmodel (Cen et al., 2016;Khaki 和 Wang,2019 年);
iii) 数据不平衡。代表特定基因型或环境的样本稀缺可能会给模型带来偏差。这可以通过采用采样方法(例如过度采样和欠采样)或生成 DL 来构建人工增强的数据集来解决(Radford et al., 2015);
iv) 由于植物表型可塑性,环境条件的变化(年际天气变化、农业生态区和作物管理实践的差异)可能会影响模型性能。在定义模型验证和未来适用性时,应考虑环境对表型的影响,并且可以通过收集模拟模型在预测表型时将看到的条件的数据来解决(Montesinos-López O. A. et al., 2018;Khaki et al., 2019;Shook et al., 2021)。
2. 模型的可解释性
当从基因型信息预测植物表型时,使用可解释模型提供了选择高排名标记作为特征选择策略的机会,并且有证据表明选择重要标记的子集可以改善对给定表型的预测(Oakey等人,2016)。这是由于大量的 SNP 充当预测的背景噪声,导致性能回报递减,除非包含的大部分 SNP 与该性状相关(Pérez-Enciso et al., 2015)。CGBayesNets 等工具可用于首先选择对表型预测有用的特征样本(McGeachie等人,2014 年)。Harvestman 是另一种工具,它选择具有代表性和非冗余的特征子集,特别关注最小化过拟合问题,这在高维预测任务中很常见(Frisby et al., 2021)。然后,可以使用特征的最佳子集和编码来训练新模型。也可以实现集成方法,其中可解释的 ML 方法可用于特征选择,然后可以将排名靠前的特征输入到另一个模型(例如 DL 架构)中,以改进预测(Azodi et al., 2019)。特征选择的好处是,输入特征减少可以减少训练模型所需的计算资源和时间。
模型的解释常用的工具算法是SHAP和LIME.