参考https://zhuanlan.zhihu.com/p/99929230
下载软件并解压
## 下载Trimmomatic
wget -c http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.39.zip
## 解压
unzip Trimmomatic-0.39.zip
## 进入目录
cd Trimmomatic-0.39
软件参数
Usage:
java -jar trimmomatic-0.39.jar
PE [-version] [-threads <threads>] [-phred33|-phred64] [-trimlog <trimLogFile>] [-summary <statsSummaryFile>] [-quiet] [-validatePairs] [-basein <inputBase> | <inputFile1> <inputFile2>] [-baseout <outputBase> | <outputFile1P> <outputFile1U> <outputFile2P> <outputFile2U>] <trimmer1>...
or:
SE [-version] [-threads <threads>] [-phred33|-phred64] [-trimlog <trimLogFile>] [-summary <statsSummaryFile>] [-quiet] <inputFile> <outputFile> <trimmer1>...
or:
-version
参数介绍
PE:过滤双端测序数据(如果数据是单端测序的,则用SE)。
phred33:Fastq文件的质量值格式为phred33,一般二代测序数据的格式基本都是phred33,如果不清楚自己数据格式的话可以咨询测序公司。
trimlog:设置日志文件。
threads:设置线程数。
seq*.fq.gz:需要过滤的Fastq文件。
seq*.clean.fq.gz:过滤后的Fastq文件。
ILLUMINACLIP: ./adapters/TruSeq3-PE.fa指去除illumina测序平台下的TruSeq3接头序列,具体使用哪个接头序列可以咨询测序公司。
接头序列后跟的3个数字(2:30:10)分别代表比对时允许的最大错配数,两条reads与接头序列的匹配率和单条reads与接头的匹配率。2:30:10即表示,在比对接头序列时允许有两个位置的碱基发生错配,双端测序的两条reads与接头序列匹配率超过30%的话,就会被切除掉,单条reads如果与接头序列的匹配率超过10%,也会被切除掉。
SLIDINGWINDOW:5:20表示以5bp为窗口进行滑窗统计,切除碱基平均质量低于20的窗口及之后的序列。
LEADING:5表示切除reads 5’端质量值低于5的碱基,直到某一个碱基的质量值大于5。
TRAILING:5表示切除reads 3’端质量值低于5的碱基,直到某一个碱基的质量值大于5。
MINLEN:50表示去除过滤后长度低于50的reads。
除了这些参数外,如果我们想要切除reads开头的碱基,可以使用HEADCROP 参数。