我我我终于要回来写qiime2了。折腾其他东西了一段时间,终于有时间回过来写这个了!
具体如何导入文件可以参考:Qiime Importing Data
由于大部分人获得的数据都是来自公司,而公司一般都已经做好了去barcode、demultiplexed(分样)等工作,所以我从中挑选了几种导入方式讲解,其他的大家可以参考qiime2提供的官方手册选择适合自己的导入格式。
首先简单介绍一下数据格式,一般我们获得文件为fastq或fasta格式。
这两者的区别很简单:FASTQ=FASTA+Quality,FASTQ与FASTA文件相比,它对每个碱基还增加了质量评估,具体大家可以自行查看fastq的规则FASTQ format
Casava 1.8 single-end demultiplexed fastq
第一种方式是将你的文件名按照casava这种类型的固定格式命名,具体地:
你的数据文件名字应该如:L2S357_15_L001_R1_001.fastq.gz,每个部分的含义如下:
L2S357:样本的identifier
15:barcode的序列或identifier
L001:测序泳道序号
R1:测序方向 (单端测序仅有R1,双端测序为R1和R2)
001: the set number
代码方面主要差异就是--type和--input-format,根据数据实际情况确定是单端还是双端
#单端数据
wget \
-O "casava-18-single-end-demultiplexed.zip" \
"https://data.qiime2.org/2019.10/tutorials/importing/casava-18-single-end-demultiplexed.zip"
unzip -q casava-18-single-end-demultiplexed.zip
#单端测序
qiime tools import \
--type 'SampleData[SequencesWithQuality]' \
--input-path casava-18-single-end-demultiplexed \
--input-format CasavaOneEightSingleLanePerSampleDirFmt \
--output-path demux-single-end.qza
#双端数据
wget \
-O "casava-18-paired-end-demultiplexed.zip" \
"https://data.qiime2.org/2019.10/tutorials/importing/casava-18-paired-end-demultiplexed.zip"
unzip -q casava-18-paired-end-demultiplexed.zip
#双端测序
qiime tools import \
--type 'SampleData[PairedEndSequencesWithQuality]' \
--input-path casava-18-paired-end-demultiplexed \
--input-format CasavaOneEightSingleLanePerSampleDirFmt \
--output-path demux-paired-end.qza
“Fastq manifest” formats
如果你不想像上面的要求批量修改文件名,你也可以选择借助“manifest”文件的方式导入文件,具体地:
第一步,你首先要创建一个’manifest‘文件,文件的格式如下:
sample-id forward-absolute-filepath reverse-absolute-filepath
sample-1 $PWD/some/filepath/sample0_R1.fastq.gz $PWD/some/filepath/sample1_R2.fastq.gz
sample-2 $PWD/some/filepath/sample2_R1.fastq.gz $PWD/some/filepath/sample2_R2.fastq.gz
sample-3 $PWD/some/filepath/sample3_R1.fastq.gz $PWD/some/filepath/sample3_R2.fastq.gz
sample-4 $PWD/some/filepath/sample4_R1.fastq.gz $PWD/some/filepath/sample4_R2.fastq.gz
该文件是用‘\t‘即tab进行分割的一个txt文件,当然tsv也可以。
第一列应为Sample ID,第二列为正向测序(R2)文件的储存路径,如果为双端测序的话第三列为反向测序(R2)文件的路径。
另外,导入的时候我们还需要指明FASTQ具体的格式,FASTQ有4种十分相似的常用格式变体: FASTQ format
SingleEndFastqManifestPhred33V2:单端的33编码的质量得分
SingleEndFastqManifestPhred64V2:单端的64编码的质量得分
PairedEndFastqManifestPhred33V2:双端的33编码的质量得分
PairedEndFastqManifestPhred64V2:双端的64编码的质量得分
在导入的过程中,qiime2会将64编码转为33 编码质量得分。
在qiime2手册中提供了其中两种格式的示例:SingleEndFastqManifestPhred33V2 和 PairedEndFastqManifestPhred64V2
#单端数据
wget \
-O "se-33.zip" \
"https://data.qiime2.org/2019.10/tutorials/importing/se-33.zip"
#单端数据对应的manifest
wget \
-O "se-33-manifest" \
"https://data.qiime2.org/2019.10/tutorials/importing/se-33-manifest"
#导入数据
unzip -q se-33.zip
qiime tools import \
--type 'SampleData[SequencesWithQuality]' \
--input-path se-33-manifest \
--output-path single-end-demux.qza \
--input-format SingleEndFastqManifestPhred33V2
#双端数据
wget \
-O "pe-64.zip" \
"https://data.qiime2.org/2019.10/tutorials/importing/pe-64.zip"
#双端数据对应的manifest
wget \
-O "pe-64-manifest" \
"https://data.qiime2.org/2019.10/tutorials/importing/pe-64-manifest"
#导入数据
unzip -q pe-64.zip
qiime tools import \
--type 'SampleData[PairedEndSequencesWithQuality]' \
--input-path pe-64-manifest \
--output-path paired-end-demux.qza \
--input-format PairedEndFastqManifestPhred64V2
除上述介绍的2种导入方式,qiime2还提供了50多种数据格式的导入方式以满足不同的需求,比如:
如果是没有demultiplexed的混样FASTQ格式数据:
单端:“EMP protocol” multiplexed single-end fastq
双端:“EMP protocol” multiplexed paired-end fastq
如果是没有质量得分的FASTA格式数据:
qiime支持导入qiime中的seqs.fna格式数据:
该格式由一个fasta文件组成,每条记录只有两行:header和sequence。每个序列必须正好一行,不能拆分多行。每条序列的ID必须遵循要求的格式。
如果是代表性序列数据:
Per-feature unaligned sequence data (i.e., representative FASTA sequences)
如果是对齐的FASTA格式文件:
Per-feature aligned sequence data (i.e., aligned representative FASTA sequences)
如果是特征表(BIOM)格式:
Feature table data
如果是系统发育树数据:
Phylogenetic trees(newick格式数据)
....
更多的类型我们可以使用以下命令查看:
qiime tools import \
--show-importable-formats