【三维基因组】Hi-C call loops?-choose juicer ! 之 step1

Juicer Tools 简介以及前期处理

Juicer 软件分析流程以及几大模块,如下图所示:

image

JUICER主要分为三个模块 JUICER Tools,JUICEBOX,STAW
JUICER Tools 主要用于数据分析,特征注释
JUICEBOX 主要用于Hi-C可视化

image.png

STAW 主要是数据说明
<u style="text-decoration: underline;">juicer 软件的基础文件为.hic 文件,这是一类高度压缩的二进制文件存储数据的交互信息。</u>

Juicer可以做点什么呢?
juicer 可以call AB call TAD call loop 以及对loop进行注释以及motif 识别,是一款集大成者的软件,如下图所示:

image.png

那么 .hic 文件是如何生成的呢?
我们一般用 juicer_tools 的pre 模块来生成.hic文件,输入文件是HiC Pro vaildpairs 文件(注意vaild Paires 文件格式要微调参见 hicpro2juicebox.sh
pre_vaildPairs 格式:
Usage:
必须输入的文件:infile path ,outfile path,genomesize
infile: 存储交互信息的text文件.具体格式如下:
注意要以空格分隔
格式一:
<readname> <str1> <chr1> <pos1> <frag1> <str2> <chr2> <pos2> <frag2> <mapq1> <mapq2>
格式二:
<str1> <chr1> <pos1> <frag1> <str2> <chr2> <pos2> <frag2>

        str = strand (0 for forward, anything else for reverse)
        chr = chromosome (must be a chromosome in the genome)
        pos = position
        frag = restriction site fragment

#其他格式请参考https://github.com/theaidenlab/juicer/wiki/Pre#file-format

outfile: 输出文件的路径,注意文件名要以.hic结尾
genomesize:两列 染色体名称以及染色体大小
简单使用实例:
java -Xmx10g -jar juicebox_tools.jar pre chrsvalidpair_sam1.chr10.validpairs.gz sam1.chr10.hic chrom_mm9.sizes

chrsvalidpair_sam1.chr10.validpairs.gz :

chrom_mm9.sizes:
两列: 染色体编号 染色体大小

chr1    197195432
chr2    181748087
chr3    159599783
chr4    155630120
chr5    152537259
chr6    149517037
chr7    152524553

详情请见:

java  -Djava.io.tmpdir=/tmp   -Djava.awt.headless=true   -Djava.library.path=juice/lib64.   -Xmx8000m -Xms5000m   -jar   juicer_tools.1.7.5_linux_x64_jcuda.0.8.jar   pre   chrsvalidpair_sam1.chr10.validpairs.gz     sam1.chr10.hic     chrom_mm9.sizes

可选参数:
-d 只计算染色体内的交互 默认false
-f 根据酶切片段计算 需要 restriction site file
-m <int>只输出reads count 大于threadthod 的
-q <int>通过MAPQ score 过滤一部分数据只输出 MAPQ score大于或等于q的 [not set]
-c <chromosome id="">只计算某一条染色体 [not set]
-n 不对矩阵进行标准化
…</chromosome></int></int>

如果前期pre 处理的时候 我们选择不进行标准化,生成了.hic文件,而后期我们又想进行标准化,该如何操作呢?
我们可以使用addNorm模块
简单用法如下:
java -Xmx8000m -Xms5000m -jar juicer_tools.1.7.5_linux_x64_jcuda.0.8.jar addNorm sam1.chr10.hic -w 10000 -F
参数说明:
input_HiC_file :输入.hic file
-w : Smallest resolution to calculate genome-wide resolution
-F :不对以酶切片段为分辨率的矩阵进行标准化
-d: For genome-wide normalization, include intra-chromosomal matrices; by default, inter-only matrices are used.
结果:.hic file 内容发生了改变

java -Djava.io.tmpdir= /tmp  -Djava.awt.headless=true   -Djava.library.path=juice/lib64    -Xmx8000m -Xms5000m -jar   juicer_tools.1.7.5_linux_x64_jcuda.0.8.jar  addNorm   sam1.chr10.hic -w 10000 -F 

其核心代码:
https://github.com/theaidenlab/Juicebox/tree/master/src/juicebox/tools

此外针对Juicer内嵌的标准化方法,以下是详细说明:
Normalization of Hi-C maps

To normalize the Hi-C maps, several methods are implemented.

Iterative Correction (IC) [1] This method normalize the raw contact map by removing biases from experimental procedure. This is an method of matrix balancing, however, in the normalized, sum of rows and columns are not equal to one.
Knight-Ruiz Matrix Balancing (KR) [2] The Knight-Ruiz (KR) matrix balancing is a fast algorithm to normalize a symmetric matrix. A doubly stochastic matrix is obtained after this normalization. In this matrix, sum of rows and columns are equal to one.
Vanilla-Coverage (VC) [3] This method was first used for inter-chromosomal map. Later it was used for intra-chromosomal map by Rao et al., 2014. This is a simple method where at first each element is divided by sum of respective row and subsequently divided by sum of respective column.
来看一下标准化的效果~~


image.png

References
[1] Imakaev et al. Iterative correction of Hi-C data reveals hallmarks of chromosome organization. Nature Methods 9, 999–1003 (2012).
[2] Knight P and D. Ruiz. A fast algorithm for matrix balancing. IMA J Numer Anal (2013) 33 (3): 1029-1047.
[3] Lieberman-Aiden et al. Comprehensive mapping of long-range interactions reveals folding principles of the human genome. Science (2009) 326 : 289-293.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342