文献信息:
标题:Large-Scale Metagenome Assembly Reveals Novel Animal-Associated Microbial Genomes, Biosynthetic Gene Clusters, and Other Genetic Diversity
中文:大规模宏基因组组装揭示了新的动物相关微生物基因组、生物合成基因簇和其他遗传多样性
杂志:msystems
时间:2020.12.22
单位:Max Planck Institute for Developmental Biology
摘要:
人类微生物群落的大规模宏基因组组合产生了大量以前未见过的微生物基因组;然而,微生物基因组相对很少来自其他脊椎动物。在这里,我们从代表5类的180个主要野生动物物种的肠道元基因组中生成了5596个元基因组组装的基因组MAG,此外还有14个现有的动物肠道元基因组数据集。这些MAGs包括1522个物种级基因组箱(SGBs);其中大多数在种、属或科水平上是新的,大多数在宿主相对环境元基因组中富集。在宿主或环境生物群落中富集的SGBs有许多特征,包括抗菌素抗性基因的数量。我们鉴定了1986种不同的生物合成基因簇;只有23个簇有MIBiG数据库注释信息。基于基因的装配揭示了巨大的基因多样性,其中很多是宿主或环境特有的。我们的MAG和基因数据集极大地扩展了微生物基因组库,并提供了微生物适应脊椎动物肠道的广阔视野。
MIBiG数据库
一、unmapped reads
大量的unmapped reads,即使在使用多个综合的宏基因组分析数据库时也是如此。通过http://timetree.org获得了较早的寄主种系统发育,分枝按寄主类着色。从内环到外环,映射到树上的数据包括寄主的饮食、寄主圈养/野生状态,以及映射到不同寄主特定、非微生物和微生物数据库的元基因组reads的平均值。注意,圈养/野生状态有时会因同一物种的个体而有所不同。的数据库(i)代表每一个公开可用的宿主物种的基因组(“脊椎动物门宿主基因组”),(2)中的所有条目NCBI核苷酸(nt)数据库与分类识别匹配主机物种(脊椎动物门主机nt),(3)一样的以前的类别,但是与所有脊椎动物门序列包括(iv) Kraken2“植物”数据库,(v) Kraken2“真菌”数据库,(vi) Kraken2“原生动物”数据库,和(vii)自定义的细菌和古细菌数据库创建的基因组分类学数据库,第89版(“GTDB-r89”)。读取按键中显示的顺序(从上到下)迭代地映射到每个数据库,只在下一次迭代中包含unmapped reads。“未分类”reads不映射到任何数据库,这些数据库与到GTDB-r89的读取映射一起用于下游分析(“微生物+未分类”)。
二、1522个SGBs的系统发育树
所有1522个SGBs的系统发育。从最内环到最外环,映射到系统发育的数据为GTDB门级分类、放线菌纲级分类、厚壁菌门纲级分类、变形杆菌纲级分类、分类新颖性、宿主肠道或环境元基因组的显著富集、在我们的多物种肠道元基因组数据集中,哺乳动物和其他动物肠道元基因组数据显著丰富。系统发育是通过PhyloPhlAn从多个保守的基因座中推断出来的。系统发育过程中的橙色点表示0.7到1之间的bootstrap值。系统发育的基础是古菌和细菌的最后一个共同祖先。
三、来源、富集、性状
A)从MGnify数据库中选择的我们的多环境元基因组数据集,每个生物群落的样本数量的总结。B) SGBs的数量在宿主中相对丰度中显著富集(log2 fold正变化;“l2fc”)环境元基因组(负l2fc)。图中显示的值是生物群系中显著富集的(蓝色)和不显著的(红色)MAGs的数量。C)富含宿主和环境的SGBs具有明显的特征。通过MAG基因含量(Traitar 26)预测的SGBs表型被总结为在宿主或环境元基因组中显著富集(DESeq2 Adj. P < 0.01)或两种生物群系(x轴小面“neither”)的SGBs。注意x轴刻度的不同。星号表示表型在特定生物群系的SGBs中更为普遍,而在1000个排列的空白模型中,SGBs之间的生物群系标签被打乱。所有DESeq2结果见表S3A。
来源分析:?
MGnify: the microbiome analysis resource in 2020
性状推测:
From Genomes to Phenotypes: Traitar, the Microbial Trait Analyzer
四、系统发生树和次生代谢簇
MAGs reveal novel secondary metabolite diversity
所有经AntiSMASH鉴定的BGCs≥3的SGBs (n = 233)的系统发育。从最外层环,数据映射到系统(i) GTDB phylum-level分类学分类,(ii)分类新奇,(3)主机或显著富集环境基因组(iv)的患病率BGC家庭整个multispecies metagenome数据集,和(v) BGC的数量确定的杂志,患病率是最大BGC家庭BGC类型,和只有BGC家庭流行率≥25%。系统发育是经过修剪的版本,如图2所示。系统发育过程中的橙色点表示0.7到1之间的bootstrap值。“NPRS”、“PKS”和“RiPPs”分别代表非核糖体肽合成酶、聚酮肽合成酶和核糖体合成和翻译后修饰肽。
五、基于基因的宏基因组组装序列cluster分析
Large-scale gene-based metagenome assembly reveals novel diversity
从combined数据集进性基于基因的宏基因组组装
产生50%序列一致性cluster。A)每个门的基因簇总数。为清楚起见,只显示cluster≥100的门。每个栏上的标签列出了cluster的数量(以及占总数的百分比)。B)每门和COG类细菌基因簇数。小面标签“P”指的是“特征不佳”。C)每类(均属于广古菌属)和COG类的古菌基因簇数。D)每个COG类的病毒基因簇数。E)每个家族标注的簇数。为清楚起见,只显示cluster≥100的门。每个条旁边的标签表示集群的数量。按门分类的每个家族的簇数。CAZy科和门是由多数到最少的cluster数量。为清楚起见,只显示cluster≥100的CAZy科和门。
参考:Protein-level assembly increases protein sequence recovery from metagenomic samples manyfold. Nat. Methods 2019
六、Biome enrichment of gene clusters from specific phyla
A) COG类B) KEGG通路或C) CAZy家族的基因簇富集。只显示了两个生物群系中丰度显著丰富的分组(DESeq2, adj. P < 1e-5)。只有在至少25%的元基因组中观察到的基因簇被包括在内。为了清晰起见,只显示了>7门富集的KEGG通路,只显示了>1门富集的CAZy科。注意,坐标轴在B)相对于A)和C)中翻转。