ROSE是大名鼎鼎的Richard A.Young实验室开发的,全称是RANK ORDERING OF SUPER ENHANCERS,用来找增强子和超级增强子。
ROSE安装
ROSE是一个python包,代码放在Github上(https://github.com/stjude/ROSE),直接下载压缩包就可以了。
wget https://github.com/stjude/ROSE/archive/refs/heads/master.zip
unzip master.zip
解压之后文件夹中包含以下内容:
用到的脚本都放在bin目录下。可以通过指定bin目录的位置调用命令:
PATHTO=$HOME/software/ROSE-master
PYTHONPATH=$PATHTO/lib
export PYTHONPATH
export PATH=$PATH:$PATHTO/bin
也可以直接写到.bashrc文件中,然后source一下就可以了。
准备数据
ROSE要求所有的数据要放在一个文件夹中,同时要求有一个名为annotatiopn的文件夹,用来放注释文件。这个注释文件可以从https://genome.ucsc.edu/cgi-bin/hgTables下载,命名为[GENOME]_refseq.ucsc,比如hg19_refseq.ucsc,hg38_refseq.ucsc。同时,BAM文件中染色体的名字必须以chr开头,可以参考https://www.jianshu.com/p/94b9602a1036如何修改BAM文件的染色体名称。
ROSE的使用
ROSE的bin文件夹下有以下脚本:
ROSE_bamToGFF.py
ROSE_callSuper.R
ROSE_geneMapper.py
ROSE_main.py
我们call enhancer主要用ROSE_main.py,具体用法如下:
ROSE_main.py -g HG38 -i ${id}.narrowPeak.bed -r ${id}_H3K27AC.deduplicate.chr.bam -c ${id}_H3K27AC_INPUT.deduplicate.chr.bam -o ./${id}/ -s 12500 -t 2500 2>${id}.log
python ROSE_main.py -g GENOME_BUILD -i INPUT_CONSTITUENT_GFF
-r RANKING_BAM -o OUTPUT_DIRECTORY
[optional: -s STITCHING_DISTANCE -t TSS_EXCLUSION_ZONE_SIZE -c CONTROL_BAM]
参数解释
-g refseq参考基因组
-i 输入gff文件
-r 排序后的bam文件,同时需为bam添加index
-o 输出文件目录
可选参数
-s STITCHING_DISTANCE,合并两个region的最大距离,默认值为12.5kb
-t TSS_EXCLUSION_ZONE_SIZE,排除TSS区域大小,排除与TSS前后某距离内的区域,以排除启动子偏差(默认值:0;推荐值:2500)。如果设置该值为0,将不会查找基因。
-c CONTROL_BAM,control样本的bam文件
-i后面的gff文件可以直接用MACS2的narrowPeak结果,但是文件名称要以bed结尾。
参考文章
https://oxygenjing.github.io/2017/09/06/使用ROSE寻找超级增强子/
https://blog.csdn.net/Qi_1996/article/details/90073567
https://cloud.tencent.com/developer/article/1556864