75.《Bioinformatics Data Skills》之构建循环处理文件pipeline

生物信息学中，很多数据分散在多个文件中，任何pipeline处理的核心都是通过某种方式对每个文件运行相同的流程，并保持对样本的追踪（最简单的方式是通过bash的for循环）。

能够处理一组文件的pipeline包含三个基本部分：

选取指定文件
循环读取数据执行流程
创建可以追踪的结果文件

有两种常见的方式选取指定文件，第一种是通过文本文件存储待处理的文件信息（如样本名与文件地址），第二种是根据某种标准挑选文件。具体选择哪种方式取决于具体的任务的效率，这里先以第一种方式为例进行介绍。

我们首先需要掌握以下知识点：

基本组件

bash向量

向量基本操作

如下方式可以定义一组bash向量：

$ sample_names=(zmaysA zmaysB zmaysC)

可根据下标读取向量内容（以0起始）

$ echo ${sample_names[0]}
zmaysA
$ echo ${sample_names[2]}
zmaysC

使用@作为索引会输出向量全部元素：

$ echo ${sample_names[@]}
zmaysA zmaysB zmaysC

通过以下方式输出向量元素个数与索引：

$ echo ${#sample_names[@]}
3
$ echo ${!sample_names[@]}
0 1 2

读取文本来生成向量

手动定义向量麻烦且易错，可以读取文件生成，例如这里有一个samples.txt文件，内容为样本名，fastq文件地址等信息（称为元数据）：

$ cat samples.txt
zmaysA  R1      seq/zmaysA_R1.fastq
zmaysA  R2      seq/zmaysA_R2.fastq
zmaysB  R1      seq/zmaysB_R1.fastq
zmaysB  R2      seq/zmaysB_R2.fastq
zmaysC  R1      seq/zmaysC_R1.fastq
zmaysC  R2      seq/zmaysC_R2.fastq

那么我们可以使用命令替换的方式读取文本第三列的fastq文件地址：

$ sample_files=($(cut -f 3 samples.txt))
$ echo ${sample_files[@]}
seq/zmaysA_R1.fastq seq/zmaysA_R2.fastq seq/zmaysB_R1.fastq seq/zmaysB_R2.fastq seq/zmaysC_R1.fastq seq/zmaysC_R2.fastq seq/zmaysA_R2.fastq seq/zmaysB_R1.fastq seq/zmaysB_R2.fastq seq/zmaysC_R1.fastq seq/zmaysC_R2.fastq

注意：读取文本时默认以空格、tab、或者换行符作为分割符，所以文件名最好只使用字母，数字，“_“和”-“，不要使用空格和特殊字符。

basename

basename命令可以去除文件的路径前缀：

$ basename seq/zmaysA_R1.fastq
zmaysA_R1.fastq

还可以通过第二个参数去除指定的文件名后缀：

$ basename seq/zmaysA_R1.fastq .fastq
zmaysA_R1

pipeline示例1

以上我们已经掌握了构建pipeline的基本零件，假设使用一个叫做fastq_stat的程序统计测序文件质量，输入输出都是单个文件，可以编写如下的pipeline：

#!/bin/bash

set -euo pipefail

# 给文件名一个变量方便以后用于别的数据集
sample_info=samples.txt

# 通过前面介绍的cut命令提取文本第三列信息到向量
sample_files=($(cut -f 3 "$sample_info"))

# 通过for循环读取所有的文件
for fastq_file in ${sample_files[@]} ## 3
do
    # 通过前面介绍的base命令剥离路径与后缀
    # 生成结果文件名，方便追踪
    result_file="$(basename $fastq_file .fastq)-stats.txt"
    fastq_stat $fastq_file > $result_file
done

以上为pipeline基本内容，可以补充一些额外特性例如判断输入合法性与打印当前正在处理的样本名。

pipeline示例2

有时候一个pipeline的输入不止一个文件，每个样本需要读取多个文件。比较典型的是比对双末端的read文件，需要读取两个FASTQ文件作为输入并返回一个比对结果。假设使用BWA工具，参考基因组为zmays_AGPv3.20.fa，可以编写以下脚本：

#!/bin/bash
set -euo pipefail

sample_info=sample.txt
reference_file=zmays_AGPv3.20.fa

# 由于每个样本名有两个fastq文件，所以取唯一值
sample_names=($(cut -f 1 "$sample_info" | uniq))

for sample in ${sample_names[@]}
do
    # 根据样本名创建结果文件
    result_file="${sample}_output.txt"
    bwa mem $reference ${sample}_R1.fastq ${sample}_R2.fasq > $result_file
done

基于通配符读取文件

最后补充采用通配符读取输入文件的方式，以一具体例子说明：

#!/bin/bash
set -euo pipefail
for file in *.fastq ## 1
do
    echo "$file: " $(bioawk -c fastx 'END {print NR}' $file) ## 2
done

解释：

通过*号通配符可以找到当前目录下fastq结尾的文件

bioawk工具介绍见这里，这里的用法是输出当前文件的序列数目（即行数）。

以上便是采用for循环与处理文件的内容，这种方式虽然简单方便，但是存在一定的缺陷，之后会介绍更加方便的find与xargs工具。

75.《Bioinformatics Data Skills》之构建循环处理文件pipeline