QIIME2的使用手册

image.png

本文从QIIME2的官网进行查看翻译
https://docs.qiime2.org/2021.8/tutorials/moving-pictures/
首先使用Keemei对于metadata进行check。
输入的数据格式应为*.qza

0 工作流程

image.png

总体概念图:


image.png

1 对得到的数据进行统计分析

例子数据

wget  https://docs.qiime2.org/2021.8/data/tutorials/moving-pictures/demux.qza

以下代码可以让你知道每个样本有多少sequences, 也会统计每个位置的质量分布

qiime demux summarize  --i-data demux.qza  --o-visualization demux.qzv

所有的QIIME2 可视化文件都会是*.qzv格式,需要使用qiime tools view来查看

qiime tools view demux.qzv

结果:


image.png
image.png

2 sequence质量控制和特征表构建

DADA2适用于Illumina测序平台数据的测试和校正pipeline。
此质量控制过程将额外过滤在测序数据中识别的任何 phiX 读数(通常存在于标记基因 Illumina 序列数据中),并将过滤嵌合序列。

2.1 sequence质量控制

data2 denosie-single法需要使用两个参数:

1: –p-trim-left 截取左端低质量序列,我们看上图中箱线图,左端质量都很高,无低质量区,设置为0;
2 : –p-trunc-len 序列截取长度,也是为了去除右端低质量序列,我们需要去除质量下不好的端,可以看到120以后,甚至中位数都下降至20以下,需要全部去

请将下图的所有输出文件名字去掉“-dada2”,否则后续代码会出现很多错误。

image.png

m与n替换为实际选择值

如果忘记去除“-dada2”,再运行下述命令,使用

mv rep-seqs-dada2.qza rep-seqs.qza
mv table-dada2.qza table.qza

输出文件:


image.png

对DADA2质控的结果进行可视化的文件输出:


image.png

将输出:


image.png

2.2 特征构建和汇总

质量过滤步骤完成后,您将需要浏览生成的数据。并且决定下一步Sampling Depth 的值,即决定所有的样本的长度,如果低于这个长度的将会被去除

tabulate-seqs
使用命令:
feature-table summarize #每个样本有多少sequences,每个的分布和一个统计;该命令将为您提供与每个样本和每个特征相关联的序列数、这些分布的直方图以及一些相关的汇总统计信息。
feature-table tabulate-seqs #给出每个IDs与每个簇代表sequences映射,这样更容易进行blast。并提供链接以轻松地针对 NCBI nt 数据库对每个序列进行 BLAST

应该把下面的table.qza改为上述的table-data2.qza, sample-metadata.tsv是来自上述stats-dada2.qzv文件的保存数据(保存后,可以改为这个名字)


image.png

输出文件:


image.png

3 生成用于系统发育多样性分析的树

QIIME 支持多种系统发育多样性指标,包括 Faith 的系统发育多样性以及加权和未加权的 UniFrac。除了每个样本的特征计数(即FeatureTable[Frequency]QIIME 2 工件中的数据)之外,这些指标还需要一个将特征相互关联的有根系统发育树。此信息将存储在Phylogeny[Rooted]QIIME 2 工件中。为了生成系统发育树,我们将使用插件中的align-to-tree-mafft-fasttree管道q2-phylogeny。

首先,管道使用mafft程序对我们中的序列执行多序列比对,FeatureData[Sequence]以创建FeatureData[AlignedSequence]QIIME 2 工件。接下来,管道屏蔽(或过滤)对齐以移除高度可变的位置。这些位置通常被认为会给生成的系统发育树增加噪音。之后,管道应用 FastTree 从掩码对齐生成系统发育树。FastTree 程序创建了一个无根树,因此在本节的最后一步中,中点生根用于将树的根放置在无根树中最长的尖端到尖端距离的中点处。

qiime 支持多种多样性分析的指标:Faith’s Phylogenetic Diversity and weighted and unweighted UniFrac。 FeatureTable[Frequency] 生成有根的树,以align-to-tree-mafft-fasttree进行

使用mafft 命令, 再使用FastTree 生产无根树


image.png

生成:


image.png

4 Aplha和beta多样性分析

多样性是使用q2-diversity进行
首先使用core-metrics-phylogenetic法计算alpha和beta的多样性指标


image.png

命令:d是需要选择使用的样本测序深度,推荐查看上述的table.qzv文件


5 查看每个样本的微生物组成

5.1 Aplha稀疏ploting

我们将使用 qiime diversity alpha-rarefaction探索 alpha 多样性作为采样深度的函数。 此可视化工具在多个采样深度计算一个或多个 alpha 多样性指标,步长介于 1(可选地使用 --pmin-depth 控制)和作为 --p-max-depth 提供的值之间。 在每个采样深度步骤,将生成 10 个稀疏表,并且将为表中的所有样本计算多样性度量。 可以使用 --piterations 控制迭代次数(在每个采样深度计算的精简表)。 将在每个偶数采样深度为每个样本绘制平均多样性值,并且如果meta与 --m-metadata-file 参数一起提供,则样本可以根据结果可视化中的元数据进行分组。


image.png

(有问题,没做出来),直接下载的官网结果文件,可视化:


image.png
image.png

可视化将有两个图。顶部图是 alpha 稀疏图,主要用于确定样本的丰富度是否已被完全观察或排序。如果图中的线在沿 x 轴的某个采样深度处看起来“变平”(即接近零的斜率),则表明收集超出该采样深度的其他序列不太可能导致观察的附加功能。如果图中的线条没有变平,这可能是因为还没有完全观察到样本的丰富度(因为收集的序列太少),或者可能表明仍然存在大量测序错误在数据中(这被误认为是新颖的多样性)。

当按元数据对样本进行分组时,此可视化中的底部图很重要。它说明了当特征表被稀疏到每个采样深度时,每个组中剩余的样本数。如果给定的采样深度d大于样本的总频率s(即,为 sample 获得的序列数s),则不可能s在采样深度为 sample 计算多样性度量d。如果一组中的许多样本的总频率低于d,则该组的平均多样性在d顶部图将不可靠,因为它是在相对较少的样本上计算的。因此,在按元数据对样本进行分组时,必须查看底部图以确保顶部图中显示的数据可靠。

注意:
提供的值--p-max-depth应通过查看table.qzv上面创建的文件中显示的“每个样本的频率”信息来确定。一般而言,选择一个位于中值频率附近的值似乎效果很好,但如果生成的稀疏图中的线似乎没有变平,您可能希望增加该值,或者如果您看起来像减少该值由于低总频率比最大采样深度更接近最小采样深度而丢失许多样本。

6 分类分析(Taxonomoc analysis)

在接下来的部分中,我们将开始探索样本的分类组成,并再次将其与样本元数据联系起来。此过程的第一步是为FeatureData[Sequence]QIIME 2 工件中的序列分配分类法。我们将使用预训练的朴素贝叶斯分类器和q2-feature-classifier插件来做到这一点。该分类器在 Greengenes 13_8 99% OTU 上进行了训练,其中序列已被修剪为仅包含来自本分析中测序的 16S 区域(V4 区域,由 515F/806R 引物对结合)的 250 个碱基。我们将这个分类器应用到我们的序列中,我们可以生成从序列到分类法的映射结果的可视化。
注意:
分类分类器在根据您的特定样品制备和测序参数(包括用于扩增的引物和序列读数的长度)进行训练时表现最佳。因此,通常您应该按照使用 q2-feature-classifier 训练特征分类器中的说明来训练您自己的分类分类器。我们在数据资源页面上提供了一些常用分类器,包括基于 Silva 的 16S 分类器,但将来作者可能会停止提供这些分类器,以便让用户训练自己的分类器,这将与他们的序列数据最相关。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,193评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,306评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,130评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,110评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,118评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,085评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,007评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,844评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,283评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,508评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,395评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,985评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,630评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,797评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,653评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,553评论 2 352

推荐阅读更多精彩内容