ChromHMM——组蛋白修饰知多少

作者:Jenny
审稿:童蒙
编辑:amethyst

ChromHMM是2012年由来自麻省理工学院布罗德研究所和美国马萨诸塞州剑桥市哈佛大学Jason Ernst和Manolis Kellis两人发表在Nature杂志上,值得注意的是全文仅一页篇幅(一张Fig)。但该软件的强大和实用让它这么多年来一直被生信人员频繁使用。

一、组蛋白修饰简介

在介绍ChromHMM之前,让我们先简单了解下组蛋白修饰。我们知道组蛋白修饰的种类繁多,包括乙酰化(Ac)、甲基化(Me)、泛素化(Ub)、类泛素化(Su)和磷酸化(P)。大部分研究的是发生在H3组蛋白上的乙酰化(Ac)和甲基化(Me)。下面表格给大家展示了常见的组蛋白修饰的特点及其与三维基因组结果的关系,基本上大家了解以下几种便可。

二、软件安装

ChromHMM软件是用Java语言编译的,安装使用超级简单。首先我们进入网站下载ChromHMM software (v1.20)(http://compbio.mit.edu/ChromHMM/ChromHMM.zip)。

unzip ChromHMM.zip
cd ChromHMM
ls -al *
java -mx1600M -jar ChromHMM.jar#测试能否运行

解压后我们可以查看到有以上文件,按照命令依次运行,最后java没有报错也就OK。

三、软件实操

运行java -mx1600M -jar ChromHMM.jar我们可以看到以下输出,其实我们主要是使用BinarizeBam和LearnModel模式,BinarizeBed模式跟BinarizeBam类似,只不过是用bam转成bed文件作为输入。小编这里习惯BinarizeBam模式,其他模式的使用和参数大家可以去阅读ChromHMM_manual.pdf,说明文档里都有很详细的解释。

01.数据准备

mkdir data data/bam
建立以上文件目录,并在data下手动生成cellmarkfiletablebams_Input.txt文件。将要用的ChIPseq bam文件都放在data/bam目录下。以下是文件内容。

ls data/bam/
cat data/cellmarkfiletablebams_Input.txt#文件用tab隔开

输出:

H3K4me1.bam、H3K4me3.bam、H3K27ac.bam、H3K9me3、H3K36me3、H3K27me3、Input.bam

02. BinarizeBam模式

1java -mx1600M -jar ChromHMM.jar BinarizeBam -f 2 -t outputsignaldir -paired -b 200 data/chrom.size data/bam/ data/cellmarkfiletablebams_Input.txt Input_FC2

参数说明:
-f 2表示与Input相比的信号比阈值(-f foldthresh);
-t outputsignaldir是信号输出目录,改参数可以不设,文件后面不需用到;
-paired 如何是paired-end测序需要设置该参数;
-b 是binsize的大小,一般设置200bp;
data/chrom.size 是基因组染色体大小,2列;

Input_FC2 是输出的主要目录结果,后面要用到,格式如下,该文件也可以自己编程用peaks文件得到,这样就不用运行BinarizeBam模式,其中0表示在没有信号,1表示有信号。

03.LearnModel模式

unset DISPLAY #有时候会出现Can't connect to X11 window server保存,该命名可以解决问题
java -mx1600M -jar ChromHMM.jar LearnModel -b 200 Input_FC2 Output_FC2_15 15 hg19

Input_FC2:输入目录,BinarizeBam模式得到的*_binary.txt,每条染色体一个,一个binsize一样;
-b 200:binsize大小,要与Input_FC2文件保持一致;
Output_FC2_15:输出目录;
15:染色体状态state个数,可以自己设置,如果组蛋白修饰种类较少,建议设置10;
hg19:物种的参考基因组,注意必须要ChromHMM软件支持的,如果没有的话需要自己建注释库,详见4部分。
点击Output_FC2_15/webpage_15.html,可以直接打开网页查看结果。
其中segments.bed为结果最终文件,而dense.bed可以直接用IGV可视化。
结果解读详见第5部分。

四、其他物种注释库的建立

刚才有提到过,如果涉及到ChromHMM软件不支持的基因组是不是就不能跑了,这种状况有办法解决,只需要在以下三个文件下手动生成自己物种相应基因组注释文件就可以。

cd ChromHMM
ls -al ANCHORFILES CHROMSIZES COORDS

以上为目前软件下载后支持的物种基因组版本。

假如我们要建立蜜蜂物种Amel_4.5基因组怎么办?

很简单,只需要在以下目录参考其他物种文件格式生成以下目录和文件就行,注意格式一定要对。

备注:

所有文件命名一定要规范,比如我们已经将基因组版本定义为Amel_4.5,那么所有目录和文件必须要有Amel_4.5字样,要不然软件无法自动识别。

CHROMSIZES(染色体大小文件夹) ANCHORFILES(基因TSS和TES位置文件)必须要有,COORDS文件下的各category数目和种类都可以自己设计,缺少某些不影响软件的运行,category越多越全,对结果解读的帮助越大。建议都用bed3的格式。

五、结果解读

cd ChromHMM
java -mx1600M -jar ChromHMM.jar -b 200 LearnModel SAMPLEDATA_HG18 OUTPUTSAMPLE 10 hg18

前面说了这么多,其实如果要看软件结果可以直接用ChromHMM给的测试数据AMPLEDATA_HG18(已生成*binary.txt.gz文件),按照以上命名得到输出目录OUTPUTSAMPLE。打开OUTPUTSAMPLE/webpage_10.html就可以查看结果。

结题报告包括运行命名参数和主要的结果图展示,其中Emission Parameter 文件是最主要的结果图,表示定义的10种state与各组蛋白修饰,CTCF的关系,其中颜色越深,代表该state与该ChIPseq数据越相关。染色体状态State的命名可以结合以上图的结果综合考虑。

此外:OUTPUTSAMPLE/GM12878_10_segments.bed是全基因组state的位置信息文件。

OUTPUTSAMPLE/GM12878_10_dense.bed可以直接用IGV可视化。

最后有关ChromHMM软件的应用及其State命名大家可以去阅读这篇文献:Integrative analysis of 111 reference human epigenomes. Nature 518, 317–330 (2015),该文章定义了人111种常见细胞或者正常组织的ChromHMM state结果。数据下载链接https://egg2.wustl.edu/roadmap/web_portal/chr_state_learning.html#core_15state

六、参考文献

1、Ernst J, Kellis M. ChromHMM: automating chromatin-state discovery and characterization. Nature Methods, 9:215-216, 2012.
2、http://compbio.mit.edu/ChromHMM/
3、Kundaje, A., Meuleman, W., Ernst, J. et al. Integrative analysis of 111 reference human epigenomes. Nature 518, 317–330 (2015). https://doi.org/10.1038/nature14248

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,287评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,346评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,277评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,132评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,147评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,106评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,019评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,862评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,301评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,521评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,682评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,405评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,996评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,651评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,803评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,674评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,563评论 2 352

推荐阅读更多精彩内容