在对数据质控的时候发现reads有接头数据,所以要对其就行去除。
官网
https://cutadapt.readthedocs.io/en/stable/
使用的是cutadapt
安装cutadapt
conda install cutadapt
cutadapt -j 1 --times 1 -e 0.1 -o 3 --quality-cutoff 25 -m 55 \
-a AGATCGGAAGAGCACACGTCTGAACTCCAGTCA \
-A AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT \
-o /root/RNASeq/cutadapt/test_R1_cutadapt.fq.gz \
-p /root/RNASeq/cutadapt/test_R2_cutadapt.fq.gz \
/root/RNASeq/test/test_R1.fq.gz \
/root/RNASeq/test/test_R2.fq.gz > /root/RNASeq/cutadapt/test_cutadapt.log 2>&1 &
#-j 1 调用几个CPU
#--times 1 一条序列去除一次
#-e 0.1允许去除adapter 有10%的错误率
#-o 3 要有三个序列匹配上了才去除
#-m 55 当去除adapter小于55时就不要这对序列(在比对到参考基因组上是不能小于40的)
#在官方网站找到两条系列的adapter序列,可以先检查一下是否是我们对应的adapter
#在去接头之前可以查看是否是对应接头
zcat test_R1.fq.gz | grep AGATCGGAAGAGCACACGTCTGAACTCCAGTCA