代谢组学( Metabolomics 或Metabonomics )是有机化学、分析化学、化学计量学、信息学和基因组学、表达组学等多学科相结合的交叉学科,旨在研究生物体或组织甚至单个细胞的全部小分子代谢物成分及其动态变化( Oliver et al., 1998; Fiehn, 2002 )。
化学计量学通过运用数学、统计学、计算机科学与化学相结合的方法与手段,设计和选择最优的化学测量方法,解析化学测量数据并最大限度地获得测量数据所包含的信息。在化学计量学方法中,解决复杂体系中归类问题和标记物搜索的主要手段是模式识别。它的主要思想是借助计算机对采集的多维海量原始信息进行压缩降维和归类分析,然后根据化学测量数据矩阵将样本集按照样本的某种性质(通常是隐含的)进行分类、特征选取以及寻找其内部规律的一种多元分析技术,通常包括非监督和监督两种分类方法
1. 背景和意义
优势
由于距表型最接近,代谢组学研究能更全面地揭示基因的功能,为生物技术的应用提供科学依据。
基本概念
它效仿基因组学和蛋白质组学的研究思想,对生物体内所有代谢物进行定量分析,并寻找代谢物与生理病理变化的相对关系的研究方式,是系统生物学的组成部分。其研究对象大都是相对分子质量1000以内的小分子物质。先进分析检测技术结合模式识别和专家系统等计算分析方法是代谢组学研究的基本方法。
相关分类
应用方向
一般认为,参与某个生物学过程的某些基因(蛋臼质或者代谢物)存在于一个控制系统中,有着协调调节、共表达的关系。因此,如果一个未知的基因和已知的基因共表达,研究者可以假定这个未知基因可能涉及这个已知基因参与的生物学过程,这个共同发生的原则可以延伸到共累积的关系。假如一个代谢途径通过基因突变或环境变化被修饰了,这个修饰过程能够通过代谢谱的变化来显示,通过基因表达谱和代谢谱分析可以比较全面地预测哪些基因可能参与到这个修饰过程。
植物代谢组学正在迅猛发展,在揭示植物生长发育及适应逆境的分子机制中发挥着越来越重要的作用。通过代谢物与基因之间的相关分析,可以获得候选基因,再通过反向遗传学或反向生物化学的方法研究候选基因的功能。代谢物的遗传分析可以帮助解析未知代谢途径。代谢组学结合致敏反应和毒理反应实验,可以综合评价转基因植物的安全性。代谢绍学从代谢物的组成上能够区分像引起甜、酸等口味的化合物成分, 在提高营养、品质及食品品质等育种方面有着很好的应用前景。
实验标准和数据框
2007 年国际代谢组学杂志"Metabohmics" 推出三篇论文,分别介绍代谢组学标准发起组织(Fiehn et 址,2007 )、化学分析基本报告标准( Sumner et 此, 2007 )和数据分析基本报告标准( Goodacre et al., 2007 )。
综合性好且含有代谢途径数据库的有:
京都基因与基因组百科全书( Kyoto Encyclopedia of Genes and Genomes, KEGG) 。KEGG 提供代谢途径查询,代谢途径包括碳水化合物代谢、核昔代谢飞氨基酸代谢及次生代谢等。
MetaCyc (http://metacyc.org/) 属于BioCyc 子数据库,是一个关于代谢途径 和酶的数据库。其阐述了超过1600 种生物体中的代谢途径,包含了从大量的文献 和网上资源中得到的代谢途径、反应、酶和底物的资料。
格勒姆代谢组数据库( Golm Metabolome Database, GMD ) ( http://gmd.mpimpgolm.mpg.de/ )包括代谢产物衍生后的GC-MS 和GC-TOF-MS 质谱图库。
METLIN代谢物数据库由美国斯克里普斯研究所生物质谱中心建立,包含了人的23 000 多种内源性和外源性代谢物、小分子药物及药物代谢物、小肽等。数据库含有各个化合物的LC-MS " MS/MS 、FTMS 质谱数据,可以通过质量、化学式和结构等检索。
MMCD ( Madison-Qingdao Metabolomics Consortium Database, http://mmcd.nmrfam.wisc.edu/ )是由美国威斯康星大学麦迪逊分校同家核磁共振中心开发维持的数据库, 数据库还从网络数据库和文献中收集了超过2 万个小分子代谢物的数据,配置有文本、化学结构、核磁共振数据飞质谱学数据等搜索引擎。
KNApSAcK ( http://kanaya.naist.jp/KNApSAcKl )是一个涵盖大部分植物物种 和代谢化合物关系的网站, 包括了4 万多种化合物和8 千多植物物种的信息, 用户 可以很方便地查询, 获得某个植物物种中已报溢的代谢物等信息。
MassBank ( http : //www.massbank.jp/) 是日本多所大学和研究机构共同建立的质谱谱图数据库, 主要收录高分辨的质谱, 包含多种质谱仪事如ESI-Q-TOF-MS/MS 、ESI-QqQ-MSIMS 、E SI-IT-(MS )'I ( Ion Trop, IT ), G C-EI-TOF-孔1S 、LC -ESITOF-MS 等产生的数据, 参考谱图含有多级质谱的信息。到目前为止, 已收集了超过12000 种初生代谢物和次生代谢物在正离子和负离子模式下获得的24993 多张质谱图。MassBank 支持用户通过输入文本恪式的质谱, 进行搜索和三维可视化的质谱比较。
2. 研究流程
流程概述
研究对象
实验设计
严格的实验设计是获得代谢组学实验成功的第一步。实验设计要求: ①控制基本一致的植物生长环境条件,如果不能达到每次实验在完全一致的条件下完成,也要保证同一实验内不同处理或材料的生长环境条件一致· ②设置实验重复, 一般为4—6 次,这将进一步消除环境和实验操作的误差, 获得具有统计意义的数据。
为了控制和监测样品提取、前处理及仪器分析过程中的误差, 一般要求:①设置空白对照。②设置质控样本。③设置内标。④保留时间指数标准物质的添加。
样本预处理和提取
取样、代谢物提取及分析前处理(衍生化)是代谢组学样品制备技术的三个关键组成部分,是获得可靠数据的前提。评价代谢物提取方法好坏的标准主要有:①保持代谢物原来的生化状态;②提取全面;③提取过程中不应有选择性和任何物理化学修饰;④较好的可重复性和可操作性。
为了使取样和提取过程达到快速、高效、均一性好及保持化合物的稳定, 一般将植物组织器官用液氮快速冷冻,研磨成粉末后,迅速加入样品提取液。
分离和检测技术
代谢物的分离和检测是植物代谢组学分析技术的两个核心组成部分。分离技术主要采用各种色谱分离方法,如气相色谱( Gas Chromatography, GC ) 液相色谱( Liquid Chromatography, LC )及毛细管电泳( Capillary Electrophoresis,CE )等,而检测技术目前主要是使用质谱( Mass Spectrorneter, MS )、核磁共振( Nuclear Magnetic Resonance, NMR )等手段。二者的有效结合可基本实现植物代谢组学分析的需求。
GC/MS 联用
气相色谱部分起分离作用,并将目标物质引人质谱系统。质谱部分实为检测器,目标物质通过气相色谱仪进入质谱后,在电离源被电离成气相离子,然后进入质量分析器。不同质荷比离子被依次分开到达电子倍增管产生电信号,这样就会得到目标物质的三维信息,利用离子碎片信息可以更准确地对物质进行定性。
LC/MS联用
HPLC 作为目前常用的化学分离分析手段, 有高压、高速、高效、高灵敏度和适应范围宽的特点。
质谱部分
质谱部分实为检测器, 主要包括电离源、质量分析器和电子倍增管等。目标物质通过气相色谱仪进入质谱后在电离源被电离成气相离子,然后进入质量分析器。不同质荷比离子被依次分开到达电子倍增管产生电信号,这样就会得到目标物质的三维信息,通过检测离子质荷比的大小和丰度,利用离子碎片信息可以更准确地对物质进行定性,从而对化合物进行定性和定量分析,并获得非常有用的元素组成和结构信息。
核磁共振
?.......
常见技术优缺点比较
3. 统计分析
a.模式识别简介
由于通过NMR和MS 方法所得到的代谢组学信息具有样品量多、数据信息复杂、以及多维数据矩阵内各变量之间具有高度的相关性等特点,我们常常无法用传统的单 变量分析方法提取数据信息。因而,如何从这些海量数据中挖掘并提炼出各代谢物之间潜在相关的信息,对于后续生物标记物群的寻找和生物学意义的解释影响重大。同时,选择刽毒的数据分析方法对于代谢组学信息的正确提取也是至关重要的。归纳起来,代谢组学数据具有以下特点:
高噪声:生物体内含有大量维持自身正常功能的内源性小分子,具有特定研究意义的生物标志物只是其中很少一部分,绝大部分代谢物和研究目的无关。
高维、小样本:代谢物的数目远大于样品个数,不适合使用传统的统计学方法进行分析,多变量分析容易出现过拟合和维数灾难问题。
高变异性:一是不同代谢物质的理化性质差异巨大,其浓度含量动态范围宽达7~9个数量级,二是生物个体间存在各种来源的变异,如年龄、性别都可能影响代谢产物的变化,三是仪器测量受各种因素影响,容易出现随机测量误差和系统误差,这使得识别有重要作用的生物标志物可能极其困难。
相互作用关系复杂:各种代谢物质可能不仅具有简单的相加效应,而且可能具有交互作用,从而增加了识别这些具有复杂关系的生物标志物的难度。
相关性和冗余性:各种代谢物并非独立存在,而是相互之间具有不同程度的相关性,同时由于碎片、加合物和同位素的存在使得数据结构存在很大的冗余性,这就需要采用合理的统计分析策略来揭示隐藏其中的复杂数据关系。
分布的不规则和稀疏性: 代谢组学数据分布不规则,而且数据具有稀疏性(即有很多值为零) ,因此,传统的一些线性和参数分析方法此时可能失效。
目前在代谢组学中运用较多的多元统计分析方法,包括主成分分析(Principal component analysis, PCA)、系统聚类分析(Hierarchical clustering analysis, HCA)、非线性映射(Nonlinear innuendo analysis, NLM)、分级聚类法(hierarchical cluster analysis, HCA)等非监督分类方法,以及K最邻近法(K-nearest neighbor classification method, K-NN)、偏最小二乘法-判别分析(Partial least squares projections to latent structures - discriminant analysis, PLS-DA)、正交偏最小二乘法-判别分析(Orthogonal projections to latent structures - discriminant analysis, OPLS-DA)、人工神经网络(Artificial Neural Network, ANN)、支持向量机(Support Vector Machine, SVM)等监督分类方法。
一般来讲,模式识别过程通常包括数据集的预处理、数据特征的提取和选择(包括非监督和监督的模式识别方法)以及数据模型的建立和验证等三个方面。
b.数据的预处理
为了得到可以进行后期分析的数据,原始数据集通常需要进行预处理。其中,数据的预处理主要包括谱峰对齐(PeakAlignment ) 、缺失值评价、数据降噪等。其中为了克服量纲不同和浓度差异对结果的影响,并提高模型的预测能力,优化数据信息的提取,需要对数据集进行标度换算( Scaling ) 和加权( Weighting ) 以及数据的回溯转换( Back Transfofrnation )等。
谱峰对齐(PeakAlignment ):在NMR实验过程中,由于样品的pH 值和浓度等因素影响,容易造成某些官能团出现化学位移偏移的现象。虽然对谱峰分段积分的方法能够缓解积分间距内微小的谱峰漂移现象,但是对偏移较大的代谢物仍然不起作用,造成后期数据分析中出现线性负载图的畸变。谱峰对齐的目的,再进行归一化等操作,而提供更接近于原始谱的数据信息,为后续数据的多变量分析奠定坚实的基础。
缺失值(missing value)进行评价:在代谢组学研究中,由于技术以及样本的原因可能会包含很多的缺失值,大量的缺失值的存在以及不同的缺失值填充的方法会对接下来的统计分析产生影响。
数据降噪:代谢组学数据分析的目的是希望从中挖掘出生物相关信息,然而,代谢组学数据的变异来源很多,不仅包括生物变异,还包括环境影响和操作性误差等方面。这就需要通过一些操作去除系统噪音信号,去除由系统不稳定引起的干扰信号,消除操作的误差等。为下一步统计分析提供更加可靠的数据集。处理手段主要包括归一化(standardization) 、标准化(normalization) ,即中心化(centering) 和尺度化(scaling),以及数据转换(transformation)。
归一化是针对样品的操作,为了使不同浓度的样品之间具有可比性,常常需要对原始谱图分段积分以进行谱图数据的量化分析,如用归一化方法对数据进行预处 理。a. 第一种是以全谱有效信号和为1 ,以分段积分值占全谱有效信号的比重为归一化后的变量值。此种归一化方式主要用于消除不同样品之间适度范围内的浓度差异。b. 但是,当样品中某种代谢物的含量变化极高时,不适用于这种归一化方法。这是因为显著升高的代谢物会使其他本来没有变化的代谢物含量相对下降,继而导致后期数据分析中伪结果的产生。此时就需要第二种方法,即以单位分段积分值与相对不变的代谢物的峰面积之间的比值作为归一化后的变量。值得注意的是,这种方法法对葡萄糖以外其余代谢物变化规律的寻找和生物学意义的解释影响较小。c. 对植物代谢组分析,最好的方法是以植物提取之前的干重为基础进行归一化,这种方法得到的结果是代谢物变化的绝对值。
标准化是对不同样品代谢物的操作,即统计学意义上的变量标准化。标准化的目的是消除不同代谢物浓度数量级的差别,但同时也可能会过分夸大低浓度组分的重要性,即低浓度代谢物的变异系数可能更大。
数据转换是指对数据进行非线性变换,如log转换和power转换等。数据转换的目的是将一些偏态分布的数据转换成对称分布的数据,并消除异方差性的影响,以满足一些线性分析技术的要求。在实际应用中,我们应该根据具体的研究目的﹑数据类型以及要选用的统计分析方法综合考虑,选择适当的预处理方式。例如,Robert A. van den Berg等(2006) 通过实际代谢组学数据的分析发现,选用不同预处理方法在很大程度上影响着主成分分析(PCA) 的结果,自动尺度化(auto scaling)和全距尺度化(range scaling) 在对代谢组学数据进行探索性分析时表现更优,其PCA 分析后的结果在生物学上能够得到更合理的解释。
c.分析方法模型选择
非监督的学习方法
非监督方法是用来探索完全未知的数据特征的方法,对原始数据信息依据样本特性进行归类,把具有相似特征的目标数据归在同源的类中,并采用相应的可视化技术直观地表达出来。应用在此领域的常见方法有聚类分析( Cluster Analysis, CA) 和主成分分析( Principal Components Analysis , PCA) 、非线性映射(NLM)等。
PCA
PCA(Principal Components Analysis)即主成分分析,也称主分量分析或主成分回归分析法,是一种无监督的数据降维方法。首先利用线性变换,将数据变换到一个新的坐标系统中;然后再利用降维的思想,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上。这种降维的思想首先减少数据集的维数,同时还保持数据集的对方差贡献最大的特征,最终使数据直观呈现在二维坐标系。直观地描述不同组别之间的代谢模式差别和聚类结果,并通过载荷图寻找对组间分类有贡献的原始变量作为生物标志物。
通常情况下,由于代谢组学数据具有高维、小样本的特性,同时有噪声变量的干扰,PCA的分类结果往往不够理想。尽管如此,PCA作为代谢组学数据的预分析和质量控制步骤,通常用于观察是否具有组间分类趋势和数据离群点。
直观的观察被分析样本有无天然的分组
检查异常样本(在置信区间之外的点)
揭示研究中存在的隐藏的偏向性
展示样本分类的细节信息
这一步分析可以看作是一个数据质量控制的过程,如果样本点在score plot(得分图)中根据样本的分组展现出一定程度聚集,则证明数据的质量可信度。此外也可以在QC样本点被移除之前,通过观察QC样本点的空间分布来判断数据的质量,如果QC样本点紧密聚集则证明数据质量高。在组间分类趋势明显时,说明其中一定有能够分类的标志物。PCA还可以用于分析质控样品是否聚集在一起,如果很分散或具有一定的变化趋势,则说明检测质量存在一定的问题。
在PCA分析之后,我们需要去除异常值(样本及变量),因此数据集的大小将会有所改变。通常来源于分析时程中,由于操作偏差引起的异常值需要从数据集中删除;但是,有些时候这些异常值可能并不是由于操作误差引起,可能代表了数据中一些新的发现,则这些数值需要保留用作进一步分析。
聚类法
代谢组学中常用的聚类方法有ι 平均(距离平方和最小聚类法)和迭代自组织( Iterative Self-Organizing Data Analysis Technology Algorithm, ISODATA ) 法。
典型相关分析/CCA
监督的多元统计分析
如果存在一些有关数据的先验信息和假设, 有监督方法比非监督方法更适合旦更有效。有监督方法在已有知识的基础上建立信息组( Class Infonnation ) , 并利用所建立的组对未知数据进行辨识、归类和预测。在这类方法中,由于建立模型时有可供学习利用的训练样本,所以称为有监督学习。用以选择对样本分类贡献较大的变量即筛选标记物。这一步可以作为数据分析的最后一步,或者在这一步之后接着做单变量统计分析来检测所筛选的化合物的差异有无统计学意义。
应用于该领域的常见方法有线性判别分析( Linear Discrimination Analysis ) 和偏最小二乘判别分析法( Partial Least Square-Discriminant Analysis , PLS-DA ) 等。
PLS-DA
PLS-DA 是目前代谢组学数据分析中最常使用的一种分类方法,它在降维的同时结合了回归模型,并利用一定的判别阈值对回归结果进行判别分析。PLS-DA的思想是,通过最大化自变量数据和应变量数据集之间的协方差来构建正交得分向量(潜变量或主成分) ,从而拟合自变量数据和应变量数据之间的线性关系,并鉴定出具有判别能力生物标志物。
PLS-DA的降维方法与PCA 的不同之处在于PLS -DA既分解自变量X 矩阵也分解应变量Y 矩阵,并在分解时利用其协方差信息,从而使降维效果较PCA 能够更高效地提取组间变异信息。
当因变量Y为二分类情况下,通常一类编码为1,另一类编码为0或-1;当因变量Y为多分类时,则需将其化为哑变量。通常,评价PLS-DA 模型拟合效果使用R2X、R2Y和Q2Y这三个指标,这些指标越接近1 表示PLS-DA 模型拟合数据效果越好。其中,R2X 和R2Y 分别表示PLSDA分类模型所能够解释X 和Y 矩阵信息的百分比,Q2Y 则为通过交叉验证计算得出,用以评价PLS-DA模型的预测能力,Q2Y 越大代表模型预测效果较好。
实际中,PLS-DA 得分图常用来直观地展示模型的分类效果,图中两组样品分离程度越大,说明分类效果越显著。代谢组学数据分析中另一种常用的方法是OPLS-DA,它是PLS-DA 的扩展,即首先使用正交信号校正技术,将X 矩阵信息分解成与Y 相关和不相关的两类信息,然后过滤掉与分类无关的信息,相关的信息主要集中在第一个预测成分。Johan Trygg 等认为该方法可以在不降低模型预测能力的前提下,有效减少模型的复杂性和增强模型的解释能力。与PLSDA模型相同,可以用R2X、R2Y、Q2Y 和OPLS-DA 得分图来评价模型的分类效果。
线性判别分析
判别分析方法有多种,包括距离判别、Bayes 判别以及Fisher判别。线性判别分析在形式上同主成分分析很相似,但两者在原理上有本质的差别。主成分分析关注的是寻找能最高效表达原数据信息的方向,而线性判别分析的重心则在寻找最能区分不同类数据的方向。线性判别分析方法使得类间距离与类内距离的比值最大,所以,经过线性判别分析变换,所获得的新的数据将达到最大的区分性。
支持向量机
随机森林
单变量分析方法
单变量分析方法简便﹑直观和容易理解,在代谢组学研究中通常用来快速考察各个代谢物在不同类别之间的差异,既可以在有监督分析之前,也可以用在监督分析之后使用。代谢组学数据在一般情况下难以满足参数检验的条件,使用较多的是非参数检验的方法,如Wilcoxon 秩和检验或Kruskal-Wallis 检验,t’检验也是一种比较好的统计检验方法。由于代谢组学数据具有高维的特点,所以在进行单变量分析时,会面临多重假设检验的问题。如果我们不对每次假设检验的检验水准α进行校正,则总体犯一类错误的概率会明显增加。
对于各种单维检验结果,通常要求其P值小于0 .05 或者0 .1 , Pearson 和ROC曲线下面积均需在0.6 以上。对于多维模型的结果, SIMCA 系列方法( PLS 和O-PLS) 的VIP 值要求大于1 。RF、SVM 和LDA 方法采用分类时每个变量对应的权值或系数对其重要性进行排序,尽量选取排位靠前的物质。
其他方法
除了进行传统的单变量假设检验分析,代谢组学分析中通常也计算代谢物浓度在两组间的改变倍数值(fold change) ,如计算某个代谢物浓度在两组中的均值之比,判断该代谢物在两组之间的高低表达。计算ROC 曲线下面积(AUC) 也是一种经常使用的方法。
总结
多变量分析代谢组学产生的是高维的数据,单变量分析不能揭示变量间复杂的相互作用关系,因此多变量统计分析在代谢组学数据分析中具有重要的作用。总体来说,代谢组学数据多变量统计分析方法大致可以分为两类:
R包
ropls包、muma包、MetabolomicsBasics{GC-MS/}
d.模型检验
由于代谢组学数据具有高维、小样本的特性,使用有监督学习方法进行分析时很容易产生过拟合的现象,即模型可以很好地将样本进行区分,但用来预测新的样本集时却表现很差。因此对于有监督的分类模型,我们需要验证模型的可靠性,下面列出几种常见的模型评价方法:
K折交互验证(K-fold cross validation):最可靠的方式是将数据分为训练集(Training set)、验证集(Validation set)和测试集(Test set),训练集用于训练模型,验证集优化模型,测试集测试模型的预测能力。但受限于样本数量,通常采用K折交互验证。其中七折交互验证较为常用,即将数据集分为7份,每次挑选出1份作为测试样本,剩余的6份用来训练建模,整个过程将会被重复直到所有样品都被预测过。预测的数据将会和原始数据作对比得到预测残差平方和(Predicted residual sum of squares, PRESS)。为方便起见,将PRESS转变为Q2(1-PRESS/SS)。Q2越大表示模型的预测能力越好。对于生物学样本,Q2≥0.4是比较理想的[2],Q2≥0.******2往往也可以接受,只是模型比较弱**。软件在自动建模(Autofit)时,会根据Q2决定模型所用的主成分或Orthogonal component个数(OPLS-DA模型)。当Q2停止增长时,模型将不再增加主成分。
置换检验(Permutation test):仅用Q2仍不足以证明模型的可靠性,置换检验也是常用的模型评判方式,常和Q2结合使用。其原理是将每个样本的分组标记随机打乱,再来建模和预测。一个可靠模型的Q2应当显著大于将数据随机打乱建模后得到的Q2。基于置换检验的结果,可以画出Permutation plot(图6)。该图展示了置换检验得到的分组变量和原始分组变量的相关性以及对应的Q2值,虚线为回归线。一个可靠的有监督模型要求回归线在Y轴上的截距小于0。
基于交互验证的方差分析(CV-ANOVA):CV-ANOVA是基于交互验证预测残差的方差分析,利用方差分析测试预测的Y变量(Yhat)和预设Y变量(Yobs)的残差和Yobs围绕均值变化的差异。它的好处是可以将交互验证的结果以更加熟悉的方式展现出来,输出表征统计学意义的P值。但CV-ANOVA对于小样本集的检验效能较低。
由于样本量的不足,通常采用上述的交叉验证和置换检验方法作为模型验证方法。而实际中,在样本量允许的情况下,最为有效的模型验证方法即将整个数据集严格按照时间顺序划分为内部训练数据和外部测试数据两部分,利用内部训练数据建立模型,再对外部测试数据进行预测,客观地评价模型的有效性和适用性
e.生物标志物的筛选
代谢组学分析的最终目标是希望从中筛选出潜在的生物相关标志物,从而探索其中的生物代谢机制,因此需要借助一定的特征筛选方法进行变量筛选。
对于高维代谢组学数据的特征筛选,研究的目的是从中找出对样本分类能力最强或较强的一个或若干个变量。特征筛选方法主要分为三类: 过滤法、封装法和嵌入法。
过滤法主要是采用单变量筛选方法对变量进行筛选,优点是简单而快捷,能够快速的降维,如t’检验、Wilcoxon秩和检验、SAM等方法。
封装法是一种多变量特征筛选策略,通常是以判别模型分类准确性作为优化函数的前向选择、后向选择和浮动搜索特征变量的算法,它通常是按照“节省原则”进行特征筛选,最终模型可能仅保留其中很少部分的重要变量,如遗传算法等。
嵌入法的基本思想是将变量选择与分类模型的建立融合在一起,变量的重要性评价依靠特定分类模型的算法实现,在建立模型的同时,可以给出各变量重要性的得分值,如OPLS-DA方法的VIP统计量等。筛选的标准通常是基于以下两个指标:a. Corr.Coeffs./p(corr) (Correlation Coefficient),是样本得分值t和变量X间的相关系数-Corr(t, X),代表了变量的可靠度。该值没有固定阈值,通常设定对应的P值 < 0.05。b. VIP (Variable importance in the projection),为变量对模型的重要性,描述了每一个变量对模型的总体贡献,通常设定阈值为VIP >1。
除此之外,基于单维检验的P值和变化倍数(Fold change)所作的火山图(Volcano plot)也是常用的筛选方法。或者变量重要性VIP和相关系数火山图。
为了更加客观、全面地评价每个变量的重要性,代谢组学研究中一般采取将上述方法结合起来的方式进行变量筛选。比较常见的一种策略是先进行单变量分析,再结合多变量模型中变量重要性评分作为筛选标准,如挑选fdr≤0.05 和VIP>1.5的变量作为潜在生物标志物。用筛选的潜在生物标志物对外部测试数据集进行预测,评价其预测效果。最后,可以通过研究生物标志物的生物学功能和代谢通路,分析不同生物标志物之间的相互作用和关系,从而为探索生物代谢机制提供重要线索和信息。
f.代谢而通路分析
通过上述方法筛选到差异代谢物后,还需要挖掘和这些代谢物相关的代谢通路。此时,可以采用MetaboAnalyst网站(http://www.metaboanalyst.ca/)进行代谢通路分析(Metabolic pathway analysis),代谢通路分析分为富集分析(Enrichment analysis)和通路分析(pathway analysis)。通路分析中添加通路拓扑分析(topology analysis),会输出通路在整体网络中的重要性(impact)。
g. 结果呈现
代谢组学数据分析及生物信息分析主要呈现内容包括:
主成分分析(PCA)
多维统计:PLS-DA/OPLS-DA二维图
单变量统计—火山图:可以直观地显示样本间代谢物变化的显著性,从而帮助我们筛选潜在的标志代谢物。
差异代谢物聚类分析:利用定性的显著性差异代谢物的表达量对各组样本进行层次聚类(Hierarchical Clustering),从而辅助我们准确地筛选标志代谢物,并对相关代谢过程的改变进行研究。
差异代谢物KEGG通路分析
h. 流程总结
原始数据
数据预处理
主成分分析(PCA) 观察样本整体的分布趋势和是杏有离群点的发生。
偏最小二乘法( PLS) 发现NMR数据(x 变量) 和其他变量(y 变量) 之间的相关关系。偏最小二乘判别分析法( PLSDA)对模型的质量用合一法进行交叉验证检验,并用交叉验证后得到的R2x 和if对模型有效性进行评判。
模型有效性检验
正交矫正处理( O-PLS-DA ),最大化地凸显模型内部不同组别之间的差异
分析相关系数,对有统计意义的代谢物进行进一步的归纳。
通过查阅文献重点分析出现显著性差异的代谢物所涉及的代谢途径对其生物学意义进行详尽的解释。
R包收藏
ropls: PCA, PLS(-DA) and OPLS(-DA) for multivariate analysis and feature selection of omics data
muma
[MetaboAnalyst 2.0 Workflow]: (From Raw Spectra to Biological Insights)
参考文献:
植物代谢组学—方法与应用。漆小泉、王玉兰、陈晓亚主编。