前言
我们知道二代RNA-seq这个过程中会经过PCR扩增,但是PCR具有偏好性,这样就导致了有点序列扩增的多,有的少.在总扩增倍数相同的基础上,就会导致一定的假阳性
这次,我们就来总结下在RNA-seq中去重的工具,先盗个图
来自简书
sambamba
安装的方法多种多样,可以用conda,github之类都可以
我在这里就不在叙述
关于用sambamba去重:
image.png
其中参数markdup是指标记重复序列,但不去重
image.png
加-r才是把标记的重复去除
sambamba markdup -r input.bam output.bam
命令很简单,直接输入<input.file>和<output.file>即可
接下来出现这个页面:
image.png
运行结束后会生成三个文件(bai文件是索引,软件自己会建立)
image.png
samblaster
这个貌似只能对sam文件去重
参数
samblaster -e -d input.sam -s output.sam
大家可以根据自己的需求设置参数
image.png
picard
Picard也是一款去重的软件,只不过要用Java来启动它,所以你的服务器上要安装Java
下载地址:https://github.com/broadinstitute/picard/releases/tag/2.21.6
选择第一个,直接下载就可以用了
但是利用picard去重所用的sam文件或者bam文件是需要加header的,如果你的文件没有,我们可以用samtools加个表头:
#加header
samtools view -Sb -T genome.fa sample_no_header.sam >sample_with_header.bam
#genome.fa为参考基因组序列
并且bam文件还是要按名字排过序的:
#按名字排序
samtools sort -n -o sorted.bam unsorted.bam
Picard去重:
java -jar ~/biosoft/picard.jar MarkDuplicates \
REMOVE_DUPLICATES=true \
I= input.bam \
O= output.bam \
M= out.txt \ #相当于log文件
image.png
这样就是正在去重
samtools
其实功能强大的samtools也具有去重的功能:
image.png
注意参数,分单,双端测序
samtools rmdup input.bam rmdup.bam
image.png
这样就是正在去重