Machine learning: A powerful tool for gene function prediction in plants(2020,review,Applications...

机器学习

机器学习对生物数据的处理:

基于机器学习的算法对于处理存在大量噪声,多维和/或不完整的海量数据集,并对数据的潜在概率分布和生成方法进行最小的假设是足够有效的。

机器学习分类:

机器学习方法的主要重点是预测。机器学习算法可以大致分为两种类型:

(1)有监督:随机森林random forests (RF), 支持向量机 support vector machine (SVM), k最近邻 k-nearest neighbors (kNN)

特征与用途:经常用于测试实例的二进制/多类分类或特征值的数值预测(回归)并要求对标签进行明确定义

(2)无监督:主成分分析principal components analysis, k-means聚类k-means clustering, 自组织图self-organizing maps

特征与用途:无标签的,主要用于聚类和特征提取

机器学习算法根据算法开发过程分为:

(1)基于特征的方法:feature-based methods:随机森林random forest (RF), 支持向量机support vector machine (SVM)

特征:需要对各种特征进行明确规范

(2)基于人工神经网络(ANN)的方法: artificial neural network (ANN)–based methods:卷积神经网络convolutional neural networks(CNN), 递归神经网络recurrent neural networks(RNN)

特征:可以自己从训练数据中提取特征

Random forests(RF)  
support vector machine  (SVM)
k nearest neighbors
Artifical neural networks

基因组功能区的预测

主要包括编码蛋白质的基因预测和顺势调控元件的预测

对于许多结构特征预测问题最有效的机器学习方法是隐马尔可夫模型(HMM)

对编码蛋白质的基因特征的整合:核苷酸序列的编码潜力,内含子-外显子结构的从头定义,转录物序列以及相关物种的直系同源基因

编码蛋白质的基因预测

1.隐马尔可夫模型(HMM):这是一种基于概率的监督学习算法,于1960年代描述,早于机器学习作为一个领域出现。可以迭代地训练HMM算法,以基于单个核苷酸的相邻核苷酸的类别来预测单个核苷酸的功能类别(例如,剪接位点,外显子,增强子)。

2.mGene:在预测任务中可将各种异构数据集合并。这样的数据可以减少基因预测中的潜在假阳性

顺式调控元件预测

1.流行的高通量CRE测定方法:k-mer富集 k-mer enrichment, 期望最大化 expectation maximization,Gibbs采样 Gibbs sampling

优缺点:这些基序本身是通过ChIP-seq实验或共表达产生的分析,但这些方法对于复杂的真核启动子序列具有很高的假阳性率

2.在深度学习架构中,CNN最常用于识别CRE,它们用于从DNA序列识别CRE的用途类似于它们在二维图像模式识别中的常见应用

3.使用CNN从序列输入中预测CRE的能力潜在地允许将其部署在非模型物种中。在这种情况下,可能需要开发特定于谱系的CNN,并且可以通过有针对性地开发“锚物种”中的分子资源来促进其发展。如果有足够的关于转录因子结合位点的信息,基于特征的方法(例如RF)对于CNNs鉴定CRE可以作为正交研究方法,RT合并了一些元素,例如结合位点的理化性质,在染色质开放区域/内含子/非翻译区域(UTR)中优先存在的以及直系启动子之间的保守元素等。

高阶函数特征的预测

基因表达的预测

从序列预测基因表达是生物信息学的重要方向之一。这需要我们更好地理解对于表达调控重要的各种特征:转录因子表达水平和结合亲和力,甲基化和其他表观遗传标记,染色质状态以及转录的细胞类型特异性

在植物中,机器学习研究的重点之一是使用来自基因启动子的序列信息

亚细胞定位的预测

亚细胞定位是决定蛋白质功能的重要因素,因为它决定了诸如蛋白质相互作用伙伴,底物和最佳pH值等因素。

1.SignalP和TargetP:利用蛋白质氨基酸序列中的信号(例如用于叶绿体和线粒体导入的N末端转运肽,核定位信号,分泌途径信号或过氧化物酶体靶序列)进行预测。这些工具的最新版本使用ANN代替HMM(SignalP)

2.Plant-mPLoc:是一种特定于植物的算法,它使用k近邻集成聚类方法集成了许多功能描述符,如GO,域组成和进化信息

Plant-mPLoc具有比TargetP2.0更高的预测精度,但正确预测的成功率因亚细胞位置的不同而不同,基准蛋白质集的预测成功率从10.3%到89.5%不等

蛋白质与蛋白质互作的预测

支持向量机和RF是预测PPI的最流行的方法

流程:

1. 获得关于不同特征的数据,例如蛋白质属性(例如,溶剂可获得的表面积、结构域信息、表面疏水性)、进化信息(例如,相互作用的同系物、共同遗传)、表达谱或功能相似性的代理(例如,GO类别)

2. 使用诸如支持向量机或RFs的监督算法将它们集成到统一预测中,可以构建蛋白质相互作用

生物功能的预测

基因本体类别的预测

1.GO数据库:全称是Gene Ontology(基因本体),他们把基因的功能分成了三个部分分别是:细胞组分(cellular component, CC); 分子功能(molecular function, MF);生物过程(biological process, BP)

2.GO-At:用于在拟南芥中进行计算机基因功能预测

3.NetGO和DeepGOPlus:是蛋白质功能注释挑战的关键评估中表现最佳的算法,它们使用k最近邻(NetGO)或CNN整合了基于序列基序,基于相似性和/或蛋白质相互作用网络的功能(DeepGOPlus )

代谢途径的预测

1. 植物的代谢途径可以分为主要的和专门的两种类型,参与后者的基因经常经历特定的谱系重复和功能分化。

2. 限制基于机器学习的路径预测方法性能的主要因素之一仍然是与酶催化的酶匹配的数据集的可用性,PlantCyc数据库已部分解决了该问题。

从基因型预测表型

基于机器学习的方法可以轻松地调整为使用各种不同的数据类型(例如,基因表达,基于序列的特征,代谢组学谱,进化信息),并且可以在一个物种中开发模型(取决于预测任务)可用于远距离的非模型物种。使用和整合不同数据类型的能力也是将此类策略应用于非模型系统的关键因素,因为此类物种通常无法获得标准化的大规模数据集。

基因组预测

基因组预测是根据生物标志物(例如单核苷酸多态性(SNP))的组合来预测生物的复杂(定量)性状的值的过程。

优点:基因组预测可以为育种者节省时间和金钱,因为只需要对种群中的一小部分个体进行表型化,就可以通过加速鉴定优选的基因型来缩短育种周期。

缺点:遗传复杂性,例如低性状遗传力,大量的基因座潜在性状,基因型×环境相互作用的影响以及数据集的高维度,会降低预测模型的准确性。

概率神经网络在将个体分类为三个表型类别(例如,低、中或高特征值)时具有最好的性能。神经网络最近已被应用于高频基因组预测问题,因为计算能力的进步允许增加神经元层

讨论

机器学习在植物科学中的最大的障碍之一是相对缺乏大型数据集,特别是缺乏积极的训练实例,这导致数据集严重不平衡

为了达到植物科学突破性见解所需的规模,现有数据的广度和深度必须增加

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,444评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,421评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,363评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,460评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,502评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,511评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,280评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,736评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,014评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,190评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,848评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,531评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,159评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,411评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,067评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,078评论 2 352

推荐阅读更多精彩内容