流程解析
本流程适用于二代测序Single End或Paired Enc数据。可单样本或多样本分析。
第一步:查看数据质量(Fastqc)
使用Fastqc数据质量网页报告,
input:raw fastq
output:fastqc 结果报告
第二步:过滤低质量reads(Trimmatics)
使用Trimmatics将原始数据过滤低质量
input:raw fastq
output: 过滤后的fastq。
第三步:对过滤后的数据进行fastqc,统计过滤信息,并使用multiqc汇总过滤前与过滤后的结果。
3.1 先使用fastqc对过滤后的fastq进行统计。
3.2 再使用MultiQC汇总两次结果。
第四步:过滤后的reads进行组装(Megahit)
input:filtered fastq
output:组装后的fasta,如下图:
第五步:对raw reads进行分类(kraken2)
input:
output:
使用Kraken2对其中的微生物进行物种注释。我们的Kraken2使用的数据库是由Refseq(2020.04.20)细菌,古细菌、真菌、原生动物和病毒库以及GRCh38人类基因组构建的。
通过查询数据库序列中的每个k-mer,然后使用所得的LCA分类单元集确定序列的适当标签,对序列进行分类。数据库中没有k-mers的序列不会被Kraken2分类。这里我们是在使用k-mer=35的条件下进行物种注释。
使用Bracken对物种注释结果计算相对丰度。Bracken是一种高度精确的统计方法,可从宏基因组学样本计算DNA序列中物种的丰度。Braken使用Kraken2分配的分类标签来估计源自样本中每种物种的读数数量。
对物种注释结果使用 KRONA 进行可视化展示。
继续整理中。。。