【代谢组学】代谢组学与其他组学数据的整合

​主要内容:

1.多组学数据整合概述

2.主要分析软件汇总

3.数据预处理的方法

1.多组学数据整合概述

1.1 多组学数据整合的现实意义

在研究疾病和其他性状或扰动的分子机制时,在一个以上的组学平台上进行分子分析是一种常见的做法。 

意义:多组分平台数据的整合分析为生物系统提供了更全面的分子特征,有可能改进疾病分子机制的发现以及诊断和预后预测模型。 

目的:整合分析主要是为了更好地确定不同类型的生物分子是如何关联的(例如,代谢数量性状位点(mQTL)分析),为了确定与表型或疾病结局显著相关的分子途径,或者提高预测性能,例如,在生物标记物发现和诊断或预后应用的情况。 

如果数据集不是从同一个人那里收集的,那么跨组学数据集的整合分析的范围也是有限的。

2. 分析使用的原材料

2.1 可以参与分析的“材料”

1.软件:所有可以进行统计分析和数据可视化的软件都可以使用(例如,R)。 

2.计算资源:原则上,所有分析都可以在功能相当强大的台式计算机上进行,尽管建议在某些分析中使用更强大的计算资源,例如计算服务器。 

3.研究设计:主要考虑匹配样本研究设计,在多元分子表型(-omics)平台上分析来自相同个体的生物样本。例如,在匹配样本设计中,单个血液样本可以分成两份,其中一份在代谢平台上分析,另一份在转录平台上分析。然而,匹配样本设计可以基于同一生物样本小份体液,但也可以不一定要基于,例如在同一时间点从同一个人采集的血液样本和另一组织活检样本,即匹配。

4.预处理。分析中使用的数据集需要适用于特定分子分析平台的标准方法先行进行预处理,包括质量控制和排除潜在异常值和/或非典型观测。

3. 数据分析的方法

3.1 mQTL分析:代谢特性的遗传驱动因素

描述遗传变异(通常以单核苷酸多态性(SNPs)的形式)与代谢产物丰度之间的统计关联,为理解代谢的遗传驱动因素提供了手段。mQTL分析需要来自相同个体的代谢谱数据和基因分型数据(SNP阵列或DNA测序数据)。基于群体的mQTL研究采用类似于全基因组关联研究的统计方法,不同之处在于表型响应变量是代谢丰度。mQTL分析通常是通过全基因组的单变量关联分析进行的,通常假设一个附加的遗传模型,其遗传效应主要由等位基因的数量编码。对于每个代谢物或代谢特征,进行全基因组扫描,以测试与遗传变异的关联。mQTL分析的结果是关于影响代谢丰度的候选基因驱动因素的信息。


代谢组与基因型联合分析示意图

3.1.1 mQTL分析过程

1.预处理和质控SNP分析数据,去除具有低质量位点和具有次等等位基因频(MAF)的变体;

2.预处理和质控代谢组数据(取决于平台和样本类型); 

3.对于每一对代谢物—遗传变异位点: 

    a)拟合一个统计模型来检验代谢物-遗传变异的关联。通常使用线性模型,以代谢特征为响应变量,以遗传变异和相关协变量(如性别、年龄、批次)为预测变量; 

    b)对与遗传效应有关的模型参数进行统计零假设检验(如Wald检验或似然比检验),以确定p值

    c)保存与每个遗传变异-代谢物对儿的遗传效应相关的p值(和相关参数估计)。

4.调整保存的p值向量以进行多次测试,例如基于错误发现率(FDR)的方法。 

5.使用FDR调整的p值和可接受的FDR水平(通常<0.05)确定哪些mQTL模型具有统计显著性。

6.对于重要的mQTL模型,对模型执行额外的质量控制(高杠杆点,检查残差分布),以确保没有异常值或其他非典型观测影响结果。 

7.以表的形式展示结果,表中列出了重要的SNP-代谢物对儿,并展示了排名最高的重要模型。典型图表类型包括曼哈顿图,对于每个重要的代谢物-SNP对儿,绘制代谢物丰度与主要等位基因数(通常编码为0、1或2)的比较。 

8.重要mQTL变异的功能解释可以通过确定变异体是否位于基因的编码区来进行,这将表明该基因与相关代谢物之间的功能关系。如果变异体不位于基因的编码区,则可以基于与mQTL变异的基因组距离来确定候选功能基因,在mQTL变异体附近定位的基因将被视为主要功能候选基因。


代谢物丰度与基因型关系示意图

3.2 基于代谢途径的整合分析

代谢途径分析提供了一种方法来确定特定的分子路径或生物过程是否与特定的生物扰动相关,如疾病状态。 

代谢途径分析提供了一个将更广泛的生物学功能分配给分子层面的机会,并且可以帮助对研究结果进行生物学解释。 

进行代谢途径分析的两个最常见的框架是基于过度代表(OR)(或)或基于秩的假设检验。 

这里我们采用基于秩的检验方法,其中基因集富集分析(GSEA)是在转录组数据背景下进行代谢路径分析的一个常见例子,它也可以应用于代谢组数据。使用GSEA或OR分析的途径分析也可以通过结合代谢组学和转录组学数据来进行,好处是从这两种数据类型中收集信息以确定代谢途径富集程度。 

代谢途径分析的结果是基于代谢组学和转录组学数据中的证据,给出关于哪些分子途径与所研究的表型相关的信息。

3.2.1 代谢途径分析过程

1.使用平台特定的方法对转录组和代谢组数据进行预处理和质控。 

2.将代谢物标识符分配给轮廓代谢物,然后可以将其映射到生物途径。我们假设转录组数据已经有了带有变量标准标识符的注释信息(例如,Ensembl、Entrez或基因ID),它们也可以映射到路径。 

3.对每个带注释的代谢物和每个转录组变量进行单变量关联分析,以确定它们与感兴趣的表型或结果的关联,例如病例-对照状态。在基于秩的(GSEA)分析中,秩是由每个变量的估计效应大小(例如,固定效应模型中的系数)决定。在OR分析中,重要的代谢物和/或基因集合由每个变量的统计零假设检验确定。

4.分别使用转录组和代谢组数据进行途径富集分析,例如GSEA,并存储与每个路径相关的p值。 

5.结合来自转录组和代谢组数据代谢途径丰度证据,确定两个数据集的组合路径显著性。可以使用基于排列的测试来确定显著性。 

6.以表的形式显示结果,表中列出了与p值和FDR调整p值相关的重要途径。


代谢途径与基因整合分析示意图

3.3 结合代谢组学和其他组学数据进行预测建模

预测建模,例如分类或回归,是生物医学研究中的一个共同目标,可以针对疾病诊断、亚型或预后等的预测。 

有时,这种模型的预测性能可以通过包含一种以上的分子表型(-omics)数据来提高。

如果额外的数据(即额外的分子表型)有助于提供补充与预测感兴趣的结果相关的信息,则预期会出现改进的预测性能。如果预测性能没有得到改善,这意味着添加的数据要么根本不是预测性的,要么只是在第一个数据集中捕获的内容上提供冗余信息。 

这项分析的结果是哪个分子表型平台提供了最好的预测信息,如果差异在统计学上是显著的,并且如果两种分子层面数据的联合(组合)建模提供了一个改进的预测模型。

3.3.1 预测模型过程

1.预处理和质控代谢组学数据和从同一个体收集的额外分子数据,例如转录组数据。

2.选择适合高维数据的多元预测模型(如PLS、OPLS-DA或lasso)。在后续步骤中使用此模型。 

3.应用(嵌套)交叉验证优化模型参数并评估预测性能,或使用外部测试集评估预测性能。在分类的情况下,受试者工作特征曲线(ROC)和ROC曲线下面积(AUC)通常用于确定分类性能。分别基于各分子表型平台的数据评价模型的预测性能。 

4.基于来自两个分子分析平台的数据优化和评估模型的预测性能(参见步骤3),在这两个平台上,数据通过变量的直接连接进行组合。


代谢组与其他组学模型构建示意图

5.比较单个数据集和组合数据集之间ROC曲线和ROC-AUC的差异。如果需要,统计零假设检验可用于确定ROC-AUC估计值是否存在显著差异。 

6.可用于未来数据预测的最终预测模型使用优化模型参数(步骤3和4)使用数据集中的所有观测值进行拟合,而不是基于交叉验证训练集拟合的模型。 

7.以表格的形式呈现结果,表中分别包含每个数据和组合模型的交叉验证(或外部测试集)的AUC估计值。另外还包括相应ROC曲线的可视化和与AUC值比较相关的假设检验p值。


ROC曲线示意图
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,193评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,306评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,130评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,110评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,118评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,085评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,007评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,844评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,283评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,508评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,395评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,985评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,630评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,797评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,653评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,553评论 2 352