Qiime2-2.导入文件

我我我终于要回来写qiime2了。折腾其他东西了一段时间，终于有时间回过来写这个了！

具体如何导入文件可以参考：Qiime Importing Data

由于大部分人获得的数据都是来自公司，而公司一般都已经做好了去barcode、demultiplexed（分样）等工作，所以我从中挑选了几种导入方式讲解，其他的大家可以参考qiime2提供的官方手册选择适合自己的导入格式。
首先简单介绍一下数据格式，一般我们获得文件为fastq或fasta格式。
这两者的区别很简单：FASTQ=FASTA+Quality，FASTQ与FASTA文件相比，它对每个碱基还增加了质量评估，具体大家可以自行查看fastq的规则FASTQ format

Casava 1.8 single-end demultiplexed fastq
第一种方式是将你的文件名按照casava这种类型的固定格式命名，具体地：
你的数据文件名字应该如：L2S357_15_L001_R1_001.fastq.gz，每个部分的含义如下：
L2S357：样本的identifier
15:barcode的序列或identifier
L001:测序泳道序号
R1:测序方向（单端测序仅有R1，双端测序为R1和R2）
001: the set number

代码方面主要差异就是--type和--input-format，根据数据实际情况确定是单端还是双端

#单端数据
wget \
  -O "casava-18-single-end-demultiplexed.zip" \
  "https://data.qiime2.org/2019.10/tutorials/importing/casava-18-single-end-demultiplexed.zip"
unzip -q casava-18-single-end-demultiplexed.zip
#单端测序
qiime tools import \
  --type 'SampleData[SequencesWithQuality]' \
  --input-path casava-18-single-end-demultiplexed \
  --input-format CasavaOneEightSingleLanePerSampleDirFmt \
  --output-path demux-single-end.qza

#双端数据
wget \
  -O "casava-18-paired-end-demultiplexed.zip" \
  "https://data.qiime2.org/2019.10/tutorials/importing/casava-18-paired-end-demultiplexed.zip"
unzip -q casava-18-paired-end-demultiplexed.zip
#双端测序
qiime tools import \
  --type 'SampleData[PairedEndSequencesWithQuality]' \
  --input-path casava-18-paired-end-demultiplexed \
  --input-format CasavaOneEightSingleLanePerSampleDirFmt \
  --output-path demux-paired-end.qza

“Fastq manifest” formats
如果你不想像上面的要求批量修改文件名，你也可以选择借助“manifest”文件的方式导入文件，具体地：
第一步，你首先要创建一个’manifest‘文件,文件的格式如下：

sample-id     forward-absolute-filepath       reverse-absolute-filepath
sample-1      $PWD/some/filepath/sample0_R1.fastq.gz  $PWD/some/filepath/sample1_R2.fastq.gz
sample-2      $PWD/some/filepath/sample2_R1.fastq.gz  $PWD/some/filepath/sample2_R2.fastq.gz
sample-3      $PWD/some/filepath/sample3_R1.fastq.gz  $PWD/some/filepath/sample3_R2.fastq.gz
sample-4      $PWD/some/filepath/sample4_R1.fastq.gz  $PWD/some/filepath/sample4_R2.fastq.gz

该文件是用‘\t‘即tab进行分割的一个txt文件，当然tsv也可以。
第一列应为Sample ID，第二列为正向测序（R2）文件的储存路径，如果为双端测序的话第三列为反向测序（R2）文件的路径。

另外，导入的时候我们还需要指明FASTQ具体的格式，FASTQ有4种十分相似的常用格式变体: FASTQ format
SingleEndFastqManifestPhred33V2：单端的33编码的质量得分
SingleEndFastqManifestPhred64V2：单端的64编码的质量得分
PairedEndFastqManifestPhred33V2：双端的33编码的质量得分
PairedEndFastqManifestPhred64V2：双端的64编码的质量得分
在导入的过程中，qiime2会将64编码转为33 编码质量得分。

在qiime2手册中提供了其中两种格式的示例：SingleEndFastqManifestPhred33V2 和 PairedEndFastqManifestPhred64V2

#单端数据
wget \
  -O "se-33.zip" \
  "https://data.qiime2.org/2019.10/tutorials/importing/se-33.zip"

#单端数据对应的manifest
wget \
  -O "se-33-manifest" \
  "https://data.qiime2.org/2019.10/tutorials/importing/se-33-manifest"

#导入数据
unzip -q se-33.zip
qiime tools import \
  --type 'SampleData[SequencesWithQuality]' \
  --input-path se-33-manifest \
  --output-path single-end-demux.qza \
  --input-format SingleEndFastqManifestPhred33V2

#双端数据
wget \
  -O "pe-64.zip" \
  "https://data.qiime2.org/2019.10/tutorials/importing/pe-64.zip"

#双端数据对应的manifest
wget \
  -O "pe-64-manifest" \
  "https://data.qiime2.org/2019.10/tutorials/importing/pe-64-manifest"

#导入数据
unzip -q pe-64.zip

qiime tools import \
  --type 'SampleData[PairedEndSequencesWithQuality]' \
  --input-path pe-64-manifest \
  --output-path paired-end-demux.qza \
  --input-format PairedEndFastqManifestPhred64V2

除上述介绍的2种导入方式，qiime2还提供了50多种数据格式的导入方式以满足不同的需求，比如：

如果是没有demultiplexed的混样FASTQ格式数据：
单端：“EMP protocol” multiplexed single-end fastq
双端：“EMP protocol” multiplexed paired-end fastq

如果是没有质量得分的FASTA格式数据：
qiime支持导入qiime中的seqs.fna格式数据：
该格式由一个fasta文件组成，每条记录只有两行：header和sequence。每个序列必须正好一行，不能拆分多行。每条序列的ID必须遵循要求的格式。

如果是代表性序列数据：
Per-feature unaligned sequence data (i.e., representative FASTA sequences)

如果是对齐的FASTA格式文件：
Per-feature aligned sequence data (i.e., aligned representative FASTA sequences)

如果是特征表（BIOM）格式：
Feature table data

如果是系统发育树数据：
Phylogenetic trees（newick格式数据）
....

更多的类型我们可以使用以下命令查看：

qiime tools import \
  --show-importable-formats