微生物组分析

复杂的微生物群落塑造了从哺乳动物胃肠道到土壤的各种环境的动态。与早期方法相比，DNA测序技术和数据分析的进步极大地改善了微生物组分析，例如在分类学分辨率，错误发现率控制和其他特性方面。此文章介绍微生物分析的最佳实践方法，讨论内容包括实验设计、分子分析技术选择、数据分析和多个组学数据集集成的方法等方面。

实验设计

实验设计是分析中重要的第一步，它决定能否产生有意义的实验数据。微生物分析的一般方法适用于任何来源的样本，但是，对于不同来源的样本需要有特殊的分析细节。对于微生物组分析，重现性非常重要。相同的微生物组分析通常会产生相互矛盾的结果。如果没有合适的样本采集、数据处理和分析方法，就很难重新检查这些数据并调和两次分析的差异。随着该领域的发展，重新审视早期实验并利用新工具对数据进行分析将非常有必要。收集样本时，应将收集过程的详细信息记录在实验metadata中，以确保尽可能多地考虑收集过程中可能存在的问题。此外，需要遵循MIMARKS和MIMS。在生物信息学处理过程中，研究人员应跟踪他们运行的所有命令和他们使用的所有软件版本，并将其原始数据和matadata存放在公共存储库中。

尽管微生物组数据分析方法广泛适用于许多样品类型和环境，但实验设计和方法选择需要仔细考虑不同的样品类型。首先，必须考虑样品的组成和用于不同方法的可行性，例如对于被非微生物 DNA 严重污染的样品（例如组织），如果不去除非微生物DNA，那么鸟枪法宏基因组测序不适用。根据实验的问题，被死亡微生物的relic DNA（细胞外或“遗迹”DNA是生物圈中最大的核酸库之一。遗迹DNA可以影响许多重要的生态和进化过程，但它也可能影响微生物丰度和多样性的估计，这对理解环境、工程和宿主相关生态系统有意义）严重污染的样品，例如土壤样品，可能需要通过单氮化丙啶物理去除 relic DNA或者用其他方法进行去除；要收集的样品量也由样品类型决定。高生物量粪便样品可能只需要拭子采样即可满足要求，但微生物密度低的样品可能需要更大的体积和更深的浓度才能充分提取 DNA。样品保存方法由分析方法和样品类型决定。例如，宏转录组学需要rNase抑制剂，代谢组学需要不干扰代谢物提取或数据收集的样品保存。

首先，必须确定实验的范围，并为感兴趣的问题选择适当的实验设计。例如cross-sectional 研究有助于发现不同人群之间微生物群落的差异，例如健康个体和患有疾病的个体或生活在不同地理区域的个体。然而由于个体微生物组的巨大差异已经生活方式、饮食、药物和生理差异，人群之间的差异可能来自目标疾病之外的其他因素。Longitudinal studies，特别是前瞻性Longitudinal studies，在疾病发作之前采集样本作为 baseline 样本，可以帮助解决以上问题。为方便下游统计分析，longitudinal studies需要仔细计划样本采集时间。有趣的是，群落的不稳定性可以成为疾病活动的有力预测指标，而不是单个时间点存在的特定类群。介入研究，包括双盲随机对照研究，对于确定一个疗程对微生物组和疾病状态的具体影响特别有用。设计具有分析计划和特定实验问题的研究可以帮助确定样本量。

定义对照和排除标准

在case-control实验设计中，必须适当选择和匹配对照。年龄和性别是常见的控制标准，尽管性别对身体部位的大多数人类微生物组的影响相对较弱，而药物和饮食等其他变量通常是更重要的混杂因素。收集全面的临床数据对于识别无法控制的混杂因素至关重要。

动物模型

研究微生物组的主要动物模型是啮齿动物，如小鼠。其他具有不同微生物复杂性的模型，如短尾鱿鱼、昆虫或斑马鱼，通常可用于研究宿主和微生物之间的特定相互作用（例如，微生物组和宿主遗传学如何相互影响）。然而，啮齿动物通常是首选，因为它们具有很好的特征并且与人类有许多生理相似之处。啮齿动物微生物组研究需要特别仔细的设计。由于啮齿动物具有粪便，笼式伴侣粪便微生物组随着时间的推移变得更加均匀，因此必须在多个笼子中重复实验以控制笼子效应。

技术差异

从DNA提取到测序的实验方法之间的技术差异很大。研究中的所有样品必须使用相同的试剂盒，并且应收集多个baseline样品以评估纵向研究中时间点之间的内在变异性。在取样、DNA提取、PCR和测序过程中使用空白对照对于检测污染至关重要。污染的reads可以在分析过程中进行去除。

根据实验范围（包括整体实验设计、样品类型和来源、测序方法以及下面讨论的其他因素），研究人员可以致力于获得广泛的、社区级样本概述、详细的基因组水平理解，甚至是微生物群落功能变异的特征。

测序目标和方法

调查微生物群落的不同方法，包括标记基因、宏基因组和宏转录组测序，可以产生不同的结果。所有广泛使用的方法都有优点和缺点，因此实验问题、假设、样品类型和分析目标都应在方法选择时考虑在内。以下是16S、宏基因组和宏转录组的Best 流程。

Mark gene 分析

标记基因测序使用靶向目标基因特定区域的引物，以确定样品的微生物系统发育。该区域通常包含一个高度可变的区域，可用于详细鉴定，其两侧是高度保守的区域，可用作PCR引物的结合位点。标记基因扩增和测序（例如用于细菌和古菌的 16S rRNA 以及用于真菌的内部转录间隔（ITS））是经过充分测试、快速且具有成本效益的方法，用于获得微生物群落的低分辨率视图。这种方法适用于被宿主DNA污染的样品，例如组织和低生物量样品。然而，由于这些引物扩增区域的DNA序列不同，引物对所有可能的DNA序列亲和力也不相同，因此在PCR扩增过程中会引起偏差。Mark gene测序中固有偏倚的其他来源包括可变区域选择、扩增子大小和PCR的循环数等。低生物量样品特别容易受到偏差的影响，主要由于过度扩增引入，随着 PCR 循环次数的增加，污染微生物的代表性越来越高。选择合适的引物有助于减轻bias，但是这需要有微生物群落组成的先验知识，以评估目标群落的分类分辨率和覆盖度。但是，即使是经过良好优化的引物分类分辨率也只能达到属的水平。

全宏基因组分析

宏基因组学是对样品内所有微生物基因组进行测序的方法。与单独的mark gene测序相比，宏基因组测序可产生更详细的基因组信息和分类分辨率，但制备、测序和分析样品的成本相对较高。这种方法捕获样本中的所有DNA，包括病毒、真核生物DNA。给定足够的测序深度，分类分辨率可以达到物种或菌株水平，也可以利用短DNA序列reads组装整个微生物基因组。但是无法对功能基因进行从头注释。宏基因组测序从基因水平上分析整个菌落功能，分辨率远远超出了mark gene分析的极限。但是与mark gene方法相比，文库构建、组装、用于注释的参考数据库会引入更多不为人知的bias。随着宏基因组学领域的成熟，这些注释步骤将继续得到改进和验证。

宏转录组分析

宏转录组学使用RNA测序来分析微生物组中的转录组，提供有关基因表达和微生物组活性功能输出的信息。宏转录组不同于mark gene 和宏基因组测序，后者对样品中的DNA进行测序，而不管细胞活力或活性如何。虽然有从死细胞中去除relicDNA的方法，对微生物RNA进行测序可以更好地了解微生物群落的功能活性，尽管宏转录组分析偏向于转录活性较高的生物体。宿主RNA污染，特别是来自高峰度rRNA的污染，也是一个重要的考虑因素，需要考虑从样品中将污染RNA排除。由于RNA容易降解，所以保存时需要仔细，以避免在所有情况下RNA的降解。此外一些特殊的样本类型需要专门的RNA纯化方案。宏转录组学数据可以提供独特的内容，并且，转录组相比于基因组，其在体内的差异更大。

宏基因组和宏转录组分析

基于reads的分析

对未组装的DNA或RNA reads与参考数据库进行比较，进行分类或进行基因注释。Kraken/Kraken2 基于k-mer精确比对，采用LCA投票结果，对宏基因组DNA序列进行快速的物种注释，分类原理如下图所示：

或者利用Burrows-Wheeler transform (BWT)算法对数据库进行压缩，例如Bowtie2，Centrifuge。Mark gene的方法（MetaPhlAn2和TIPP）利用基因组特定区域进行分类，主要是通用单拷贝原件。HUMAnN2可以进行基因注释和代谢通路分析。MEGAN整合两种分析内容，如果需要进行两种注释时可以使用这种工具。基于reads的分析方法单独考虑每条reads的信息，因此此方法可以有效的扩展到大型复杂的数据集，例如土壤微生物组数据集。需要注意的是，物种分类和功能注释依赖reads和参考基因组的同源性，因此数据库的选择至关重要。对于人类肠道等特征明确的环境，RefSeq 等基因组数据库和 Pfam 或 UniRef 等蛋白质家族数据库可提高结果的准确性并降低计算成本。而对于来自不佳环境的样本，应考虑使用大型数据库，例如NCBI nt、nr和IMG/M，因为数据库更大，计算复杂性增加，特异性降低。特定的分类和功能类别必须使用专门的数据库进行注释。例如PHASTER对噬菌体进行注释，Resfams对抗生素耐药基因进行注释，FOAM对环境样本进行注释。

基于组装的分析

另一种分析宏基因组和宏转录组的方法是将reads组装成更长的contigs。这些contigs可以通过相似性进一步sorted或binning，对微生物基因组进行组装，得到部分基因组进而得到完整的基因组。预测多基因生物合成途径，甚至可以使用antiSMASH工具进行代谢重建。在一些情况下，基于组装的分析方法并不适用，较高的生物多样性、样本中存在许多相关菌株、低覆盖率等会使组装产生的contig很多，在下游分析中，物种分类会不明确。例如土壤样本由于微生物多样本高，微生物分布不均匀，通常很难组装。需要的工具包括metaSPAdes和MEGAHIT。可以使用MaxBin2和CONCOCT等工具对单个微生物部分基因组组装为完整基因组。可以使用单拷贝基因分析工具，例如CheckM，估计基因组完整性和污染状况，以评估分箱和组装基因组的质量。VizBin等可视化工具显示宏基因组序列的聚类。由于宏基因组组装的方法复杂，可以使用Anvio、ATLAS、MetAMOS等workflow 工具对数据自动化分析。

为了比较不同测序样本的reads数，可以采用多种方法对数据进行标准化。常见的标准化方法有RPKM、FPKM、TPM。常用工具有 edgeR和DESeq2。

高级分析

微生物组变异的总体模式通常通过Alpha和Beta 多样性进行评估。

Alpha多样性量化单个样本中的特征多样性，并且可以跨样本组进行比较。例如，当将患有疾病的个体样本与健康对照组进行比较时，可以使用Alpha多样性来比较两个样本之间的平均物种多样性。物种丰富度和系统发育对样本序列数敏感，结合丰富度和均匀度（香农指数）则可以降低这种敏感性。但是，应该注意的是，这些方法仅针对16S rRNA数据进行了评估，可能不适用于其他微生物组数据类型。

Beta 多样性比较每对样本之间的特征差异，生成所有样本对之间的 beta 多样性距离的距离矩阵。矩阵的的选择会影响结果的获得，在选择相应矩阵时应结合生物数据的解释。定量指标（Bray-Curtis，Canberra和weighted UniFrac）在计算中使用特征丰度数据，而定性指标（binary-Jaccard和unweighted UniFrac）仅考虑特征的存在与否。UniFrac 等系统发育测定通常提供可解释的生物模式，这些指标需要系统发育树，因此不能与没有系统发育树的组学数据直接进行比较。进行Alpha和Beta多样性计算的软件，如 QIIME、Mothur、和R 包vegan。非参数置换检验PERMANOVA和ANOSIM用于评估组间显著的β多样性聚类，但是PERMANOVA 在组内具有不同分散度的数据集上可能表现更好。

对于Beta多样性数据的可视化，通常使用排序技术。例如PCOA或PCA。PCoA （principal co-ordinates analysis）是一种研究数据相似性或差异性的可视化方法，通过一系列的特征值和特征向量进行排序后，选择主要排在前几位的特征值， PCoA 可以找到距离矩阵中最主要的坐标，结果是数据矩阵的一个旋转，它没有改变样品点之间的相互位置关系，只是改变了坐标系统。通过PCoA 可以观察个体或群体间的差异。这些方法将大而复杂的距离矩阵转化为样本距离的二维或三维度展示。然后基于metadata类别对样本进行着色，以无监督方式进行可视化聚类。EMPeror提供用于操作PCoA作图的交互式框架。

另一种常见的分析方法是在感兴趣的比较组（即治疗组与对照组）中查看差异丰度的微生物或功能元件（例如genes和pathways）。识别可解释微生物群落间差异的微生物分类群有非常高的挑战性，因为微生物数据集高维（包含数千个分类群）、稀疏、组成性问题。组成是主要问题。当群落中一种微生物比例升高，那么其他微生物的比例必然减少，因为群落组成整体是1。例如，假设患者服用的药物仅增加单个微生物属的生长速率，而不影响其他微生物属的生长。虽然其他微生物不受药物的影响，但由于单一微生物属的生长，其他微生物的相对丰度也会降低。这对很多经典方法带来很大的挑战，例如参数统计检验（Student's t-test；方差分析），相关性分析包括Spearman’s rank correlation通常会导致无法接受的假阳性率（可能超过90%）。compositionally aware methods 解决了组成和相对丰度的问题。一是：统计检验中强制使用强有力的生物学假设。还有一些对微生物组数据分析进行优化的工具，例如SparCC和SPEIC-EASI，他们假设物种相关性很小，因此相关系数为0。BAnOCC也是解决物种组成性问题的工具。isometric log ratio transform (ilr)方法通过测试微生物丰度之间对数比率的变化（通常称为平衡（balance））来控制由于比例性而导致的假阳性。平衡可以根据先验知识进行构建，比如进化史。应用ILR后，标准统计工具，如多元响应、线性回归和分类，可以有效地测试微生物之间平衡或对数比率的差异，而不是原始微生物丰度的差异，从而控制组成。其他方法例如可以使用绝对定量分析解决组成的问题。绝对定量分析能反映样本每种微生物的真实数量和组间样本的真实差异。

机器学习在微生物分析中应用越来越广泛。可以基于当前状态（健康或患病）分离样本，或预测未来状态。例如，可以根据个体的口腔微生物群对牙龈炎的严重程度和易感性进行建模。SourceTracker是基于Bayesian原理的估计器，可以分析未知群落的微生物起源，可以根据起源环境对微生物样本进行分类。机器学习分析需要大量的样本量，应始终与交叉验证、独立测试集或其他实验和生物学验证相结合，以确保结果的可靠性。

整合其他组学数据进行分析

对于给定的研究，整合其他数据类型（包括标记基因测序、宏基因组学、宏转录组学、宏蛋白质组学、代谢组学和其他技术）对于全面了解微生物群落的组成和功能至关重要。多组学分析整合了化学和生物学知识，以提供更完整的生物系统图景，并且是一个活跃的研究领域，其方法在很大程度上未经测试。

集成多组学分析本质上存在困难。例如，基因表达和代谢在不同时间尺度上运作，微生物产生许多代谢物通常只响应来自其他物种的分子信号。此外，宏基因组和代谢组学数据集（其中数据矩阵主要由零组成）比宏蛋白质组数据集稀疏得多，这可能会给某些方法带来技术问题。目前也有一些工具进行整合分析。XCMS在线整合代谢组学和代谢途径数据，以及转录组学和蛋白组学数据。传统方法，如Pearson和Spearman，可以实现跨组学数据集的特征之间的成对关联。然而，由于微生物组和代谢组数据集的稀疏性和高维性，这些容易出现假阳性。Procrustes分析（Procrustes Analysis，普鲁克分析）使用降维数据测试一个数据集中样本之间的模式（距离）是否在另一个数据集中观察到，是一种通过分析形状分布，比较两组数据一致性的方法。数学上来讲，就是不断迭代，寻找标准形状（canonical shape），并利用最小二乘法寻找每个对象形状到这个标准形状的仿射变化方式。该过程也称为最小二乘正交映射（least-squares orthogonal mapping）。先进的综合分析工具GNPS的分子网络可以识别代谢物和途径注释。尽管存在这些挑战，但组学数据集成的未来潜力是有希望的。有许多宏基因组、宏转录组和代谢组数据被成功整合的例子，阐明了微生物组中的基因调控，并将微生物的存在与代谢物相关联。总体而言，整合组学数据可以提供对微生物组的更全面和机械的理解 - 从DNA鉴定到代谢物和蛋白质的功能生产 - 理想情况下导致更具可操作性的科学见解。

本文使用文章同步助手同步

微生物组分析

推荐阅读更多精彩内容