HI-C数据分析 pipeline(一:上游数据预处理)

Hi-C fastq data to valid pair and matrix data format transition.
本文总结了Hi-C原始数据处理流程,以及不同Hi-C数据格式之间的转换。

一、比对
1、工具安装
工具:Hi-CPro 软件: https://github.com/nservant/HiC-Pro
选择最新的安装包下载,按照官网的步骤安装软件及依赖软件。

tar -zxvf HiC-Pro-master.tar.gz
cd HiC-Pro-master
## Edit config-install.txt file if necessary
make configure
make install

2、建立project文件夹(重要)
文件夹一定要按照软件要求的格式创建

tree rawdata
rawdata/
├── CT
│   ├── CT-1_R1.fq.gz
│   ├── CT-1_R2.fq.gz
└── Treat
│   ├── Treat-1_R1.fq.gz
│   ├── Treat-1_R2.fq.gz    

3、创建酶切位点文件
如果使用HindIII酶切,则软件中已经有预置,不需要创建。我这里用的是MboI酶切,酶切位点为GATCGATC,需要重新创建。流程如下:

## 需要参考基因组fasta文件
pwd
~/HiC-Pro_3.1.0/annotation ## 需要在annotation文件夹下创建bed
~/HiC-Pro_3.1.0/bin/utils/digest_genome.py -r GATCGATC  -o Mus_musculus_MboI.GRCm38.dna.toplevel.bed Mus_musculus.GRCm38.dna.toplevel.fa

4、修改config-hicpro.txt文件

N_CPU = 40
## 比对软件的路径
BOWTIE2_IDX_PATH = /your/bowtie2/index/dir_path
## 参考基因组的路径
REFERENCE_GENOME = Mus_musculus.GRCm38.dna.toplevel
GENOME_SIZE = Mus_musculus.GRCm38.dna.toplevel.chrom.size
## 基因组切割bed文件,及酶切位点碱基序列,这里使用的MboI酶切割
GENOME_FRAGMENT = Mus_musculus_MboI.GRCm38.dna.toplevel.bed
LIGATION_SITE = GATCGATC
## 其他参数可以根据自己的情况修改

5、运行HicPro

runhic=/home/edith/Downloads/HicPro/HiC-Pro_3.1.0/bin/HiC-Pro
input=/home/edith/data/hic/rawdata
output=/home/edith/data/hic/output
conf=/home/edith/data/hic/output/config-hicpro.txt
$runhic -i $input -o $output -c $conf

6、输出文件
hicpro 输出两个文件夹:
bowtie_results/ :
output/bowtie_results/bwt2/ 文件夹下包含比对的最终bamfile文件;
bowtie_results/bwt2_glob/ 和 bowtie_results/bwt2_loc/文件夹可以移;
hic_results/:
hic_results/data 包含 valid pair文件
hic_results/matrix 包含HiC pro格式的稀疏矩阵文件
hic_results/pic 包含输出的质控图片;

二、获得个性化的HiC矩阵
1、HicPro分步运行:
HiCPro的处理流程包括以下6部分:

INPUT DATA TYPE IN STEPWISE MODE
-s mapping  .fastq(.gz) files
-s proc_hic .bam files
-s quality_checks   .bam files
-s merge_persample  .validPairs files
-s build_contact_maps   .validPairs files
-s ice_norm .matrix files
如果想 HiCPro 分步运行,只需要命令后面加上-s参数:
$runhic -i ${output}bowtie_results/bwt2/ -o ${output} -c $conf -s proc_hic
$runhic -i ${output}bowtie_results/bwt2/ -o ${output} -c $conf -s quality_checks
$runhic -i ${output}hic_results/data/ -o ${output} -c $conf -s merge_persample
$runhic -i ${output}hic_results/data/ -o ${output} -c $conf -s build_contact_maps
$runhic -i ${output}hic_results/matrix/ -o ${output} -c $conf -s ice_norm

2、HiCPro文件的merge
output/bowtie_results/bwt2/ 文件夹下的 .bam 文件可以修改,如果想将多个HiC文件进行进行merge分析,可以在比对后将bamfile 全部放到一个bwt2/文件夹下,然后运行后续的HiCpro分析内容:


## 将比对文件merge 后文件夹内容如下:
tree bwt2/
├── CT
│   ├── CT-1_Mus_musculus.GRCm38.dna.toplevel.bwt2pairs.bam
│   ├── CT-2_Mus_musculus.GRCm38.dna.toplevel.bwt2pairs.bam
│   ├── CT-3_Mus_musculus.GRCm38.dna.toplevel.bwt2pairs.bam
├── Treat
│   ├── Treat-1_Mus_musculus.GRCm38.dna.toplevel.bwt2pairs.bam
│   ├── Treat-2_Mus_musculus.GRCm38.dna.toplevel.bwt2pairs.bam
│   ├── Treat-3_Mus_musculus.GRCm38.dna.toplevel.bwt2pairs.bam
## 然后运行hicpro
$runhic -i ${output}bowtie_results/bwt2/ -o ${output} -c $conf -s proc_hic
$runhic -i ${output}bowtie_results/bwt2/ -o ${output} -c $conf -s quality_checks
$runhic -i ${output}hic_results/data/ -o ${output} -c $conf -s merge_persample
$runhic -i ${output}hic_results/data/ -o ${output} -c $conf -s build_contact_maps
$runhic -i ${output}hic_results/matrix/ -o ${output} -c $conf -s ice_norm

3、ValidPair的标准化
利用分步运行,可以在运行完 pro_hic 步骤后获得validpair文件,随后可以修改validpair文件的大小,将HiC数据标准化再进行下游分析。

## 利用shuf 命令随机抽取100000000 个readpair
shuf -n100000000 filename.validPair > filename-100M.validPair
## 然后运行后续的HICPRO 命令
$runhic -i ${output}hic_results/data/ -o ${output} -c $conf -s build_contact_maps
$runhic -i ${output}hic_results/matrix/ -o ${output} -c $conf -s ice_norm

随后,HiCPro的输出文件hic_results/data/文件夹下面的validPair文件可以被转化成.hic文件,在Juicer中可视化;

hic_results/matrix/ 文件夹下面的 _iced.matrix 文件可以使用 HicPro自带的工具转化成 density 矩阵格式,也可以使用其他软件比如 hicexplorer 进行格式转化。下篇笔记整理一下我的 hic数据格式转换的流程。

欢迎关注公,一起交流!
原文:HI-C数据分析 pipeline(一:上游数据预处理

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容