趁着零碎的时间整理了下ChromHMM的相关内容。
ChromHMM是基于ChIP-seq组蛋白数据检测染色质状态的工具。
基因组区域特定的组蛋白修饰或修饰的组合具有特定的功能。
特定标记的区域和作用:
获取上述标记区域的方式通常是call peak, 但是,理想的情况下需要获取多个组蛋白标记的整合结果。ChromHMM是一个基于HMM模型的用于检测染色质状态的java软件。
软件链接:http://compbio.mit.edu/ChromHMM/
Chromatin states的定义基于组蛋白修饰的不同组合和对应的不同功能区域。
其目的是将基因组区分为具有生物学功能的区域或片段。
以下为染色质segment的案例:
一、如何使用ChromHMM
(1)使用环境: java
(2)reads比对后的文件
如果自己进行分析,还需要: 比对软件和bedtools
二、使用流程如下:
1、测序获取reads
2、 reads比对到参考基因组
3、 转换aligned reads为BED格式
4、 创建Binned和Binarized tracks
5、 训练模型
6、 infer the states
7、 解读
三、具体操作步骤
(1) Alignment
多种短序列比对软件可用,BWA、Bowtie2等
(2) 比对reads转换为BED格式
bedtools bamtobed -i sample.bam > sample.bed
(3) 创建Binned and Binarized Tracks
java –mx4000M –jar ChromHMM.jar BinarizeBed –b 200 CHROMSIZES/hg18 cellmarkfiletable.txt SAMPLEDATA_HG18
其中,cellmarkfiletable.txt记录多个样本的修饰BED数据,例如:
cell1 mark1 cell1_mark1.bed cell1_control.bed
cell1 mark2 cell1_mark2.bed cell1_control.bed
cell2 mark1 cell2_mark1.bed cell2_control.bed
cell2 mark2 cell2_mark2.bed cell2_control.bed
(4)训练模型并segment基因组
java -mx1600M -jar ChromHMM.jar LearnModel SAMPLEDATA_HG19 OUTPUTSAMPLE 10 hg19
ChromHMM的输出:
生成HTML报告 webpage_N.html (N是状态)
包含信息如下:
1. Model learned: transi-on and emission parameters
2. Enriched func-onal categories
3. BED files to visualize the segmenta-on
可视化segmentation:
Genome Browser: https://genome.ucsc.edu/
IGV: https://www.broadins-tute.org/igv/
其他参考:
1. Segway: https://pmgenomics.ca/hoffmanlab/proj/segway/
2. Spectacle: https://github.com/jiminsong/Spectacle