Trimmomatic 是一个很常用的 Illumina 平台数据过滤工具。支持 SE 和 PE 测序数据。主要用来去除 Illumina 平台的 fastq 序列中的接头,并根据碱基质量值对 fastq 进行修剪。
用法:
Trimmomatic=~/biotools/Trimmomatic-0.36/trimmomatic-0.36.jar
adapter=~/biotools/Trimmomatic-0.36/adapters
for name in `ls p0_LV-RV |cut -d '_' -f1,2,3,4|sort |uniq`;
do
java -jar "$Trimmomatic" PE -phred33 p0_LV-RV/${name}_R1.fastq.gz p0_LV-RV/${name}_R2.fastq.gz p0_LV-RV_clean/${name}_R1.fastq.gz unpaired/${name}_R1.unpaired.fastq.gz p0_LV-RV_clean/${name}_R2.fastq.gz unpaired/${name}_R2.unpaired.fastq.gz ILLUMINACLIP:"$adapter"/TruSeq3-PE.fa:2:30:10:1:TRUE LEADING:20 TRAILING:20 SLIDINGWINDOW:4:15 -threads 8 MINLEN:50
done
处理步骤及主要参数:
Trimmomatic 过滤数据的步骤与命令行中过滤参数的顺序有关,通常的过滤步骤如下:
ILLUMINACLIP: 过滤 reads 中的 Illumina 测序接头和引物序列,并决定是否去除反向互补的 R1/R2 中的 R2。
SLIDINGWINDOW: 从 reads 的 5’ 端开始,进行滑窗质量过滤,切掉碱基质量平均值低于阈值的滑窗。
MAXINFO: 一个自动调整的过滤选项,在保证 reads 长度的情况下尽量降低测序错误率,最大化 reads 的使用价值。
LEADING: 从 reads 的开头切除质量值低于阈值的碱基。
TRAILING: 从 reads 的末尾开始切除质量值低于阈值的碱基。
CROP: 从 reads 的末尾切掉部分碱基使得 reads 达到指定长度。
HEADCROP: 从 reads 的开头切掉指定数量的碱基。
MINLEN: 如果经过剪切后 reads 的长度低于阈值则丢弃这条 reads。
AVGQUAL: 如果 reads 的平均碱基质量值低于阈值则丢弃这条 reads。
TOPHRED33: 将 reads 的碱基质量值体系转为 phred-33。
TOPHRED64: 将 reads 的碱基质量值体系转为 phred-64。
-phred33 和 -phred64 参数指定 fastq 的质量值编码格式,如果不设置这个参数,软件会自动判断输入文件是哪种格式(v0.32 之后的版本都支持),虽然软件默认的参数是 phred64,如果不确定序列是哪种质量编码格式,可以不设置这个参数。