归纳:RNA-seq去重

前言

我们知道二代RNA-seq这个过程中会经过PCR扩增,但是PCR具有偏好性,这样就导致了有点序列扩增的多,有的少.在总扩增倍数相同的基础上,就会导致一定的假阳性
这次,我们就来总结下在RNA-seq中去重的工具,先盗个图


来自简书

sambamba

安装的方法多种多样,可以用conda,github之类都可以
我在这里就不在叙述
关于用sambamba去重:


image.png

其中参数markdup是指标记重复序列,但不去重


image.png

加-r才是把标记的重复去除
sambamba markdup -r input.bam output.bam

命令很简单,直接输入<input.file>和<output.file>即可
接下来出现这个页面:

image.png

运行结束后会生成三个文件(bai文件是索引,软件自己会建立)
image.png

samblaster

这个貌似只能对sam文件去重


参数
samblaster -e -d input.sam -s output.sam

大家可以根据自己的需求设置参数


image.png

picard

Picard也是一款去重的软件,只不过要用Java来启动它,所以你的服务器上要安装Java
下载地址:https://github.com/broadinstitute/picard/releases/tag/2.21.6
选择第一个,直接下载就可以用了
但是利用picard去重所用的sam文件或者bam文件是需要加header的,如果你的文件没有,我们可以用samtools加个表头:

#加header
samtools view -Sb -T genome.fa sample_no_header.sam >sample_with_header.bam
#genome.fa为参考基因组序列

并且bam文件还是要按名字排过序的:

#按名字排序
samtools sort -n -o sorted.bam unsorted.bam

Picard去重:

java -jar ~/biosoft/picard.jar MarkDuplicates \
       REMOVE_DUPLICATES=true  \
       I= input.bam \
       O= output.bam \
       M= out.txt \ #相当于log文件
image.png

这样就是正在去重

samtools

其实功能强大的samtools也具有去重的功能:


image.png

注意参数,分单,双端测序

samtools rmdup input.bam rmdup.bam
image.png

这样就是正在去重

参考:
https://www.jianshu.com/p/115b24b7df4c

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容