2021-09-24 qiime2 DADA2 去噪、序列质控和生成特征表

文字转载

DADA2是用于检测和校正(如果有可能的话)Illumina扩增序列数据的工作流程。正如在q2-dada2插件中实现的,这个质量控制过程将过滤掉在测序数据中鉴定的任何phiX序列(通常存在于标记基因Illumina测序数据中,用于提高扩增子测序质量),并同时过滤嵌合序列。

dada2 denoise-single方法需要两个用于质量过滤的参数:--p-trim-left m,它去除每个序列的前m个碱基(如引物、标签序列barcode);--p-trunc-len n,它在位置n截断每个序列。这允许用户去除序列的低质量区域、引物或标签序列等。为了确定要为这两个参数传递什么值,你应该查看上面由qiime demux summarize生成的demux.qzv文件中的交互质量图选项卡。

--p-trim-left 截取左端低质量序列,我们看上图中箱线图,左端质量都很高,无低质量区,设置为0;

--p-trunc-len 序列截取长度,也是为了去除右端低质量序列,我们看到大于120以后,质量下降极大,甚至中位数都下降至20以下,需要全部去除,综合考虑决定设置为120。

单端序列去噪, 输入样本拆分后结果;去除左端 0 bp (--p-trim-left,有时用于切除低质量序列、barocde或引物),序列切成 120 bp 长(--p-trunc-len);生成代表序列、特征表和去噪过程统计。

下面的步骤计算量较大,有34个样本,26万条序列,计算大约消耗10分钟。

time qiime dada2 denoise-single \

--i-demultiplexed-seqs demux.qza \

--p-trim-left 0 \

--p-trunc-len 120 \

--o-representative-sequences rep-seqs-dada2.qza \

--o-table table-dada2.qza \

--o-denoising-stats stats-dada2.qza


生成三个输出文件:

stats-dada2.qza: dada2计算统计结果。查看 | 下载

table-dada2.qza: 特征表。查看 | 下载

rep-seqs-dada2.qza: 代表序列。 查看 | 下载


对特征表统计进行进行可视化

qiime metadata tabulate \

--m-input-file stats-dada2.qza\

--o-visualization stats-dada2.qzv


可视化
代码
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容