这里主要介绍HiChIP和4C
HiChiP: efficient and sensitive analysis of protein-directed genome architecture
参考:https://www.nature.com/articles/nmeth.3999
Schematic of HiChIP method
HiChIP通过裂解细胞前就在细胞核中交联,从而降低假阳性,最大化提高DNA contact的捕获效率。然后收集细胞核,在原位产生Hi-C交联,利用生物素标记DNA末端。接着进行细胞核的裂解,超声打断DNA,后续用特异性的抗体进行ChIP实验。得到DNA蛋白复合物后,进行DNA洗脱和反向交联。随后,进行生物素捕获Hi-C交联和文库制备,上机测序。
作者所认为的技术优势包括:
- 构象信息读取的产量提高了10倍以上
- 相对于ChIA-PET,样本要求降低了100倍以上(前者要求几百万个细胞)
- 所需细胞数量低于Hi-C
与以前的研究相类似地,CTCF motif基本是都是convergent orientation, 且HiChIP进一步降低了细胞数量:
作者借鉴了4C的viewpoint分析方法(virtual 4C),分析了感兴趣位点附近的信号分布并与Hi-C做了比较:
To precisely visualize enrichment of HiChIP relative to in situ Hi-C we employed virtual 4C, where a specific genomic region is selected as an anchor ‘view point’, and all PETs connecting to that anchor are visualized as a line plot.
Viewpoint在这里是指XistRNA的启动子
Overview of 4C
接下来以4C为例进行讨论,参考:Chapter Four - 4C Technology: Protocols and Data Analysis
因为HiChIP和4C类似的一点是都是一个感兴趣位点对多位点的互作,所以这里可以了解一些4C的背景;另外,HiChIP中也提到了viewpoint coverage的分析方法,这个分析方法就是借鉴了4C
4C 不仅可以检测大的染色质范围的相互作用,也可以检测小的局部的调控元件互作。对于如急性淋巴细胞白血病的研究,可以检测染色质重排事件的发生。
因为4C是检测所有与感兴趣的位点相互作用的基因组区域,我们把感兴趣的位点称作view-points或者bait,被交联的区域成为captures
4C的protocol涉及两次酶切RE和两次连接ligation:
第一次酶切是为了方便顺利连接成环状DNA,第二次酶切是为了方便特殊设计引物的PCR
这里涉及4-cut和6-cut酶的选择问题,一般选择4-cut且切割位点GC均衡的酶,切割没有GC偏倚且频率相对高一些。另外,RE不能对甲基化修饰敏感。
Background: The first digestion is performed on cross-linked material: this digest defines the sizes and position of fragments between which contacts (cross-links) are analyzed. Most REs are not able to properly digest crosslinked material. We use the six base pair-cutting enzymes HindIII, EcoRI, BglII or the more frequently cutting four base pair-recognizing enzymes DpnII, NlaIII, and Csp6I (none blocked by CpG methylation), as these in our hands digest cross-linked chromatin well.
最好每个阶段对DNA产物跑电泳检测一下:PCR后的大概在500bp左右
Data analysis
比对
4C需要把reads按照对应的primer分别合并成bins,也就是每个bins对应一个viewpoint
质控
分为三个指标:
- 每个实验的reads counts数
- 可比对reads中cis-mapped reads占比:cis-overall ratio
- 在viewpoint附近窗口内的reads覆盖情况
对于单个4C实验,一般需要1M以上的reads
对于RE是six cutters的,每一侧的窗口大小为1M;对于RE是four cutters的,每一侧的窗口大小为0.1M
cis/overall ratio of >40% 为可接受范围,trans的reads一般会被认为是random ligation
上图的质控反映reads在viewpoint附近的分布情况,理论上高质量的数据都集中在B区域。
PCR产物中两种明显的副产物就是noncut和self-ligated reads。前者是1st RE消化效率太低造成,后者是同一个viewpoint的片段自己连起来,而没有和capture片段连接,这种reads也是要抛弃的
如果需要local interaction,建议用4 cutters
In cis data
作者应用running-window approach,平滑序列数据:图中110附近信号值最强,就是viewpoint的位置
和RNA-seq不同,4C数据中reads实际的counts数不是我们感兴趣的,我们感兴趣的是实际有哪些位点的相互作用能被捕获到,所以在作者讨论的分析算法中,第一步需要binarize数据,变成0和1编码,这样一方面避免了PCR扩增偏倚带来的counts偏倚,一方面,信号值与reads到viewpoints的距离成反比(没有意义,我们只要知道capture是什么),所以二进制编码也不用考虑这个
最合适的Windows大小为100,对每个window的capture数目与background比较做统计学检验。
Trans analysis
trans数据实际上很多是random ligation的结果
基本是和cis分析相似,不过因为viewpoint在它的染色体上没有capture,所以没有4Csignal分布的bias(在viewpoint附近最强而随距离减弱)
trans相比cis频率要低很多,建议windows设置成500大小