ROSE 软件挖掘「超级增强子」实战与代码分享

一、ROSE 软件是什么?
----------------- ROSE 软件挖掘「超级增强子」实战与代码分享
=====================================

一、ROSE 软件是什么?

ROSE(Rank Ordering of Super-Enhancers)由 MIT Richard A. Young 实验室开发,是目前引用率最高的超级增强子预测工具。

rose软件下载地址:https://bitbucket.org/young_computation/rose/

软件分析原理:

  1. 先用 H3K27ac(或 MED1/BRD4 等)ChIP-seq peaks 定义“增强子”区间;

  2. 将彼此 ≤12.5 kb 的增强子“缝合”(stitched)成连续区域;

  3. 根据信号强度排序,拐点(inflection point)以上即为超级增强子,以下为普通增强子(typical enhancer)。

    [图片上传失败...(image-52a288-1756906488222)]

二、安装步骤与环境依赖

  • 安装系统:Linux(CentOS/Ubuntu)
  • 环境依赖:
    • Python 2.7(注:不可使用 Python3环境,会报错!)
    • R ≥ 3.6(用于绘图)
    • SAMtools 0.1.18(新旧版亦可,需支持 sort -o

一键下载:

cd ~ #回到Home
wget https://bitbucket.org/young_computation/rose/get/feb35cb1d955.zip  #下载
unzip feb35cb1d955.zip  #解压
mv young_computation-rose-* ROSE  #重命名文件夹
export PATH=$PWD/ROSE/bin:$PATH  ##写入环境

三、输入文件准备

文件 说明 工具/注意事项
bam ChIP 样本(H3K27ac) bam文件需要有.bai索引文件
control bam(可选) Input 或 IgG 对照 bam文件需要有.bai索引文件
gff/bed 增强子初筛结果 通常用 MACS2 鉴定的 broad peaks

注意:软件默认支持人(hg19 / hg38)和鼠(mm9 / mm10)的参考基因组。

四、一条命令跑完 SE 鉴定

python ROSE_main.py \
  -g hg38 \
  -i sample_peaks.gff \
  -r sample.bam \ #需鉴定的样本
  -c input.bam \ #control bam
  -o ROSE_out \ #输出文件名
  -s 12500 \
  -t 2500
  • 常用参数:
    • -g:基因组版本(内置 hg19/hg38/mm9/mm10)
    • -s:缝合距离,默认 12.5 kb
    • -t:排除 TSS ±2–3 kb,避免启动子干扰

主要输出:

[图片上传失败...(image-b92510-1756906488222)]

  1. *_SuperEnhancers.table.txt —— 超级增强子列表
  2. *_AllEnhancers.table.txt —— 所有增强子(含 TE/SE 标签)
  3. *_Enhancers_withSuper.bed —— 可直接导入 UCSC/IGV 浏览器
  4. *_Plot_points.png —— rank-plot 拐点图

[图片上传失败...(image-9d9437-1756906488222)]

五、SE 靶基因注释

使用ROSE_geneMapper.py对上一步生成的*_SuperEnhancers.table.txt进行基因注释,代码如下:

python ROSE_geneMapper.py \
  -g hg38 \ #参考基因组版本号
  -i sample_SuperEnhancers.table.txt \ #输入文件
  -o geneMapper  #输出文件夹

得到:

[图片上传失败...(image-360bdb-1756906488222)]

  • TO_GENE.txt —— 每个 SE 邻近基因(50 kb 窗口)
  • GENE_TO_ENHANCER.txt —— 基因 ←→ SE 反向索引

后续即可对 SE 关联基因做 GO/KEGG、GSEA、转录因子 motif 富集等分析。

六、非模式物种/自定义基因组

非模式物种/自定义基因组可参考以下步骤:

  1. 准备 refGene.txt(UCSC genePred 格式)。
  2. 改名为 mySpecies_refseq.ucsc 放入 annotation/
  3. 修改 ROSE_main.pyGENOME_DICT,添加新基因组键值。
  4. 其余步骤同上。

七、常见问题

  • 染色体命名 —— bam、gff 必须统一带或不带 chr(需要注意参考基因组信息!)。
  • Python2 环境 —— 若系统默认 Python3,可通过 conda 创建Python2环境:
    conda create -n rose_py2 python=2.7

八、小结

ROSE 以“缝合-排序-拐点”三步法,把 ChIP-seq 峰直接转换成生物学意义明确的超级增强子列表。参考使用上述代码可快速完成从原始 bam 到SE鉴定及注释的全过程。

ROSE(Rank Ordering of Super-Enhancers)由 MIT Richard A. Young 实验室开发,是目前引用率最高的超级增强子预测工具。

rose软件下载地址:https://bitbucket.org/young_computation/rose/

软件分析原理:

  1. 先用 H3K27ac(或 MED1/BRD4 等)ChIP-seq peaks 定义“增强子”区间;

  2. 将彼此 ≤12.5 kb 的增强子“缝合”(stitched)成连续区域;

  3. 根据信号强度排序,拐点(inflection point)以上即为超级增强子,以下为普通增强子(typical enhancer)。

二、安装步骤与环境依赖

  • 安装系统:Linux(CentOS/Ubuntu)
  • 环境依赖:
    • Python 2.7(注:不可使用 Python3环境,会报错!)
    • R ≥ 3.6(用于绘图)
    • SAMtools 0.1.18(新旧版亦可,需支持 sort -o

一键下载:

cd ~ #回到Home
wget https://bitbucket.org/young_computation/rose/get/feb35cb1d955.zip  #下载
unzip feb35cb1d955.zip  #解压
mv young_computation-rose-* ROSE  #重命名文件夹
export PATH=$PWD/ROSE/bin:$PATH  ##写入环境

三、输入文件准备

文件 说明 工具/注意事项
bam ChIP 样本(H3K27ac) bam文件需要有.bai索引文件
control bam(可选) Input 或 IgG 对照 bam文件需要有.bai索引文件
gff/bed 增强子初筛结果 通常用 MACS2 鉴定的 broad peaks

注意:软件默认支持人(hg19 / hg38)和鼠(mm9 / mm10)的参考基因组。

四、一条命令跑完 SE 鉴定

python ROSE_main.py \
  -g hg38 \
  -i sample_peaks.gff \
  -r sample.bam \ #需鉴定的样本
  -c input.bam \ #control bam
  -o ROSE_out \ #输出文件名
  -s 12500 \
  -t 2500
  • 常用参数:
    • -g:基因组版本(内置 hg19/hg38/mm9/mm10)
    • -s:缝合距离,默认 12.5 kb
    • -t:排除 TSS ±2–3 kb,避免启动子干扰

主要输出:

[图片上传失败...(image-f7c7e1-1756906488222)]

  1. *_SuperEnhancers.table.txt —— 超级增强子列表
  2. *_AllEnhancers.table.txt —— 所有增强子(含 TE/SE 标签)
  3. *_Enhancers_withSuper.bed —— 可直接导入 UCSC/IGV 浏览器
  4. *_Plot_points.png —— rank-plot 拐点图

[图片上传失败...(image-99d02f-1756906488222)]

五、SE 靶基因注释

使用ROSE_geneMapper.py对上一步生成的*_SuperEnhancers.table.txt进行基因注释,代码如下:

python ROSE_geneMapper.py \
  -g hg38 \ #参考基因组版本号
  -i sample_SuperEnhancers.table.txt \ #输入文件
  -o geneMapper  #输出文件夹

得到:

[图片上传失败...(image-b3ed24-1756906488222)]

  • TO_GENE.txt —— 每个 SE 邻近基因(50 kb 窗口)
  • GENE_TO_ENHANCER.txt —— 基因 ←→ SE 反向索引

后续即可对 SE 关联基因做 GO/KEGG、GSEA、转录因子 motif 富集等分析。

六、非模式物种/自定义基因组

非模式物种/自定义基因组可参考以下步骤:

  1. 准备 refGene.txt(UCSC genePred 格式)。
  2. 改名为 mySpecies_refseq.ucsc 放入 annotation/
  3. 修改 ROSE_main.pyGENOME_DICT,添加新基因组键值。
  4. 其余步骤同上。

七、常见问题

  • 染色体命名 —— bam、gff 必须统一带或不带 chr(需要注意参考基因组信息!)。
  • Python2 环境 —— 若系统默认 Python3,可通过 conda 创建Python2环境:
    conda create -n rose_py2 python=2.7

八、小结

ROSE 以“缝合-排序-拐点”三步法,把 ChIP-seq 峰直接转换成生物学意义明确的超级增强子列表。参考使用上述代码可快速完成从原始 bam 到SE鉴定及注释的全过程。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • """1.个性化消息: 将用户的姓名存到一个变量中,并向该用户显示一条消息。显示的消息应非常简单,如“Hello ...
    她即我命阅读 3,314评论 0 5
  • 为了让我有一个更快速、更精彩、更辉煌的成长,我将开始这段刻骨铭心的自我蜕变之旅!从今天开始,我将每天坚持阅...
    李薇帆阅读 1,958评论 0 3
  • 似乎最近一直都在路上,每次出来走的时候感受都会很不一样。 1、感恩一直遇到好心人,很幸运。在路上总是...
    时间里的花Lily阅读 1,411评论 0 2
  • 1、expected an indented block 冒号后面是要写上一定的内容的(新手容易遗忘这一点); 缩...
    庵下桃花仙阅读 548评论 0 1
  • 一、工具箱(多种工具共用一个快捷键的可同时按【Shift】加此快捷键选取)矩形、椭圆选框工具 【M】移动工具 【V...
    墨雅丫阅读 548评论 0 0