关键词:
微生物组大数据,population-scale,网络分析,基于拓扑学的数据挖掘新方法
本文提纲:
- 微生物组大数据分析目前存在的问题
- tmap可以解决的问题
- tmap应用实例
- 总结
发表文章: Genome Biology, 2019; https://doi.org/10.1186/s13059-019-1871-4
软件代码: https://github.com/GPZ-Bioinfo/tmap
tmap软件教程: https://tmap.readthedocs.io/en/latest/
微生物组大数据分析目前存在的问题
随着多组学技术的发展,现有的分析方法往往难以满足当前微生物组日益复杂,规模庞大,且附带着大量表型及环境相关元数据的分析需求。目前主要存在以下几个亟需解决的问题:
海量高维大数据来源复杂,难以用传统统计学方法得到可靠的结论
非线性关联难以用常用的线性方法(如envfit, adonis, ADONISM)检测出来
在数据集庞大,样本之间存在各种复杂差异,特征之间存在关联的情况下,细微但可能是研究目的所在的差异容易被掩盖掉。
以上数据分析的挑战对创新可靠分析方法提出新的需求。本课题组开发了基于拓扑学数据分析的tmap软件,提供了一个整合大规模人群样本微生物组数据的分析框架,可以将以下两个微生物组研究的重要方向结合起来:1. 总结微生物组数据规律(pattern discovery);2. 为发现新的科学问题(hypothesis generation)提供线索。
tmap可以解决的问题
通过Mapper算法及网络富集分析,tmap利用样本的微生物组数据构建TDA网络结构,并通过SAFE score量化了样本表型或者物种在一簇样本中的富集程度。基于SAFE score可以实现以下3个分析目的:
Ranking: 对每个表型或物种的SAFE score之和排序,其含义与linear regression中的effective size类似,但是对线性及非线性的关联都可以较好的识别。
Ordination: 对SAFE score做PCA,目的为展示一个整体富集规律(overall enrichment pattern)不仅可以识别对微生物组变化贡献最大的物种或表型,也可以了解哪些表型或物种的联系比较紧密。
Co-enrichment network: 这里的网络基于物种及表型关联的显著性构建,用于探索其生物学意义上的关联或者混杂因素(confounding factor),需要以研究目的和意义为导向。
tmap应用实例
本研究通过对4个数据集(包括1个合成数据和3个真实世界数据)对tmap方法加以验证,结果表明与传统的线性方法(如envfit, adonis, ADONISM)相比,tmap都表现更好,对非线性关联及潜在规律都有较好的识别。以比利时队列FGFP为例:
比利时FGFP队列的简要介绍:
- 2016年发表在Science,研究内容为健康正常人群的肠道微生物组。
- 研究纳入了1106个粪便16S rtRNA样本,及样本的69个宿主表型特征,包括了7个metadata类别:社会人口学特征,生活方式,血液指标,健康状况,饮食习惯,肠道健康状况及病史用药情况。文章表明,仅有7.63%的微生物组改变与宿主表型的变化有关。tmap提高了识别并解读population-scale的微生物组-宿主表型关联的能力。
如上图所示,tmap不仅可以较好的复现envfit这种基于线性回归的方法,也在对非线性变化的捕捉上,比envfit更加灵敏。通过对FGFP数据转化的SAFE score分析,可以得到许多原始文章中没有挖掘到的规律和线索。如下图所示,比如两种药物虽然与同一种疾病相关联,但其对微生物组的影响是不同的,具体表现为在网络图上的富集部位不一样。这都是传统线性分析难以得到的。
总结
tmap有助于将不同国家地区,不同疾病类型,不同宿主表型的人群微生物组大数据加以整合,对人群做精细分层,为特异性的干预性治疗,数据来源多样化的meta分析等研究提供了有效线索。有效融合不同来源的微生物组极其宿主的医疗健康大数据,是实现微生物组数据共享和整合的创新性方向。
tmap不仅可以胜任传统线性研究对线性关系的刻画,也对非线性关联灵敏,优于传统分析方法。且基于微生物组网络地图,可以挖掘基于微生物组变化背景的宿主表型关联,使表型之间的关系不会与微生物组变化割裂开来。
了解不同宿主表型在网络图上的分布,捕捉变量之间联系及变量自身的重要性排序,对大规模人群队列的数据分析,不仅归纳总结了现有数据规律,也对科学假设的提出,科学问题的提炼有很大帮助。