机器学习
机器学习对生物数据的处理:
基于机器学习的算法对于处理存在大量噪声,多维和/或不完整的海量数据集,并对数据的潜在概率分布和生成方法进行最小的假设是足够有效的。
机器学习分类:
机器学习方法的主要重点是预测。机器学习算法可以大致分为两种类型:
(1)有监督:随机森林random forests (RF), 支持向量机 support vector machine (SVM), k最近邻 k-nearest neighbors (kNN)
特征与用途:经常用于测试实例的二进制/多类分类或特征值的数值预测(回归)并要求对标签进行明确定义
(2)无监督:主成分分析principal components analysis, k-means聚类k-means clustering, 自组织图self-organizing maps
特征与用途:无标签的,主要用于聚类和特征提取
机器学习算法根据算法开发过程分为:
(1)基于特征的方法:feature-based methods:随机森林random forest (RF), 支持向量机support vector machine (SVM)
特征:需要对各种特征进行明确规范
(2)基于人工神经网络(ANN)的方法: artificial neural network (ANN)–based methods:卷积神经网络convolutional neural networks(CNN), 递归神经网络recurrent neural networks(RNN)
特征:可以自己从训练数据中提取特征
基因组功能区的预测
主要包括编码蛋白质的基因预测和顺势调控元件的预测
对于许多结构特征预测问题最有效的机器学习方法是隐马尔可夫模型(HMM)
对编码蛋白质的基因特征的整合:核苷酸序列的编码潜力,内含子-外显子结构的从头定义,转录物序列以及相关物种的直系同源基因
编码蛋白质的基因预测
1.隐马尔可夫模型(HMM):这是一种基于概率的监督学习算法,于1960年代描述,早于机器学习作为一个领域出现。可以迭代地训练HMM算法,以基于单个核苷酸的相邻核苷酸的类别来预测单个核苷酸的功能类别(例如,剪接位点,外显子,增强子)。
2.mGene:在预测任务中可将各种异构数据集合并。这样的数据可以减少基因预测中的潜在假阳性
顺式调控元件预测
1.流行的高通量CRE测定方法:k-mer富集 k-mer enrichment, 期望最大化 expectation maximization,Gibbs采样 Gibbs sampling
优缺点:这些基序本身是通过ChIP-seq实验或共表达产生的分析,但这些方法对于复杂的真核启动子序列具有很高的假阳性率
2.在深度学习架构中,CNN最常用于识别CRE,它们用于从DNA序列识别CRE的用途类似于它们在二维图像模式识别中的常见应用
3.使用CNN从序列输入中预测CRE的能力潜在地允许将其部署在非模型物种中。在这种情况下,可能需要开发特定于谱系的CNN,并且可以通过有针对性地开发“锚物种”中的分子资源来促进其发展。如果有足够的关于转录因子结合位点的信息,基于特征的方法(例如RF)对于CNNs鉴定CRE可以作为正交研究方法,RT合并了一些元素,例如结合位点的理化性质,在染色质开放区域/内含子/非翻译区域(UTR)中优先存在的以及直系启动子之间的保守元素等。
高阶函数特征的预测
基因表达的预测
从序列预测基因表达是生物信息学的重要方向之一。这需要我们更好地理解对于表达调控重要的各种特征:转录因子表达水平和结合亲和力,甲基化和其他表观遗传标记,染色质状态以及转录的细胞类型特异性
在植物中,机器学习研究的重点之一是使用来自基因启动子的序列信息
亚细胞定位的预测
亚细胞定位是决定蛋白质功能的重要因素,因为它决定了诸如蛋白质相互作用伙伴,底物和最佳pH值等因素。
1.SignalP和TargetP:利用蛋白质氨基酸序列中的信号(例如用于叶绿体和线粒体导入的N末端转运肽,核定位信号,分泌途径信号或过氧化物酶体靶序列)进行预测。这些工具的最新版本使用ANN代替HMM(SignalP)
2.Plant-mPLoc:是一种特定于植物的算法,它使用k近邻集成聚类方法集成了许多功能描述符,如GO,域组成和进化信息
Plant-mPLoc具有比TargetP2.0更高的预测精度,但正确预测的成功率因亚细胞位置的不同而不同,基准蛋白质集的预测成功率从10.3%到89.5%不等
蛋白质与蛋白质互作的预测
支持向量机和RF是预测PPI的最流行的方法
流程:
1. 获得关于不同特征的数据,例如蛋白质属性(例如,溶剂可获得的表面积、结构域信息、表面疏水性)、进化信息(例如,相互作用的同系物、共同遗传)、表达谱或功能相似性的代理(例如,GO类别)
2. 使用诸如支持向量机或RFs的监督算法将它们集成到统一预测中,可以构建蛋白质相互作用
生物功能的预测
基因本体类别的预测
1.GO数据库:全称是Gene Ontology(基因本体),他们把基因的功能分成了三个部分分别是:细胞组分(cellular component, CC); 分子功能(molecular function, MF);生物过程(biological process, BP)
2.GO-At:用于在拟南芥中进行计算机基因功能预测
3.NetGO和DeepGOPlus:是蛋白质功能注释挑战的关键评估中表现最佳的算法,它们使用k最近邻(NetGO)或CNN整合了基于序列基序,基于相似性和/或蛋白质相互作用网络的功能(DeepGOPlus )
代谢途径的预测
1. 植物的代谢途径可以分为主要的和专门的两种类型,参与后者的基因经常经历特定的谱系重复和功能分化。
2. 限制基于机器学习的路径预测方法性能的主要因素之一仍然是与酶催化的酶匹配的数据集的可用性,PlantCyc数据库已部分解决了该问题。
从基因型预测表型
基于机器学习的方法可以轻松地调整为使用各种不同的数据类型(例如,基因表达,基于序列的特征,代谢组学谱,进化信息),并且可以在一个物种中开发模型(取决于预测任务)可用于远距离的非模型物种。使用和整合不同数据类型的能力也是将此类策略应用于非模型系统的关键因素,因为此类物种通常无法获得标准化的大规模数据集。
基因组预测
基因组预测是根据生物标志物(例如单核苷酸多态性(SNP))的组合来预测生物的复杂(定量)性状的值的过程。
优点:基因组预测可以为育种者节省时间和金钱,因为只需要对种群中的一小部分个体进行表型化,就可以通过加速鉴定优选的基因型来缩短育种周期。
缺点:遗传复杂性,例如低性状遗传力,大量的基因座潜在性状,基因型×环境相互作用的影响以及数据集的高维度,会降低预测模型的准确性。
概率神经网络在将个体分类为三个表型类别(例如,低、中或高特征值)时具有最好的性能。神经网络最近已被应用于高频基因组预测问题,因为计算能力的进步允许增加神经元层
讨论
机器学习在植物科学中的最大的障碍之一是相对缺乏大型数据集,特别是缺乏积极的训练实例,这导致数据集严重不平衡
为了达到植物科学突破性见解所需的规模,现有数据的广度和深度必须增加