最近的一次组会上看到实验室的同学汇报的结果里有Hi-C的图,所以我就悄咪咪的去了解了一下Hi-C技术的原理。整理一下。
Q1: Hi-C的全称是什么?
A: 高通量染色体构象捕获技术(High-throughput chromosome conformation capture)
Q2: 简单的说,Hi-C技术是干嘛的?
A: Hi-C 是以整个细胞核为研究对象,利用高通量测序技术,研究全基因组范围内整个染色质 DNA 在空间位置上的关系,捕获不同基因座位上之间的空间交互信息。Hi-C 可以与 RNA-Seq、ChIP-Seq 等数据进行联合分析,从基因调控网络和表观遗传网络来阐述生物体性状形成的相关机制。(参考文章:Hi-C 技术, Hi-C技术到底能做什么?)
Q3: Hi-C的实验流程是什么?
A: 可以参考哈佛大学录制的视频,20多分钟,里面介绍了详细的实验流程。这个视频的好处是还可以选择播放速度,英文不太好的童鞋也不用担心,让它慢一点播放就行了。点这里:Hi-C: A Method to Study the Three-dimensional Architecture of Genomes.
一般流程:
(1)细胞(2 x 10^ 7至2.5 x 10 ^7)用甲醛交联,如此一来,在空间上相互作用的染色质片段之间产生共价键(上图中DNA片段:蓝色,红色。中间的环状的是protein)。
(2)染色质用限制酶(此处为HindIII;限制位点:虚线)消化。产生的粘性末端被核苷酸填充一部分,并且被标记生物素(紫色点)。这里需要注意的是,你需要有一个空白对照,即没有HindIII处理的样品,因为你需要跑胶检查你的酶切结果。
(3)连接:是在极稀的条件下进行的,有利于分子内连接。这时HindIII酶切位点就没了,多出了一个NheI位点。再进行酶切。
NOTE:这里要进行质量检测:
上图里,A图是分别用不同量的3C和Hi-C文库跑的胶。一般来说Hi-C文库的连接效率要比3C稍微低一些,所以会有一些弥散的感觉。质量控制步骤应显示3C和Hi-C库均大于10 kb。DNA条带弥散表明连接效率差。B图里分别是不同的对照和进行两次酶切的DNA胶结果图。NheI切割了70%的Hi-C扩增子。
(4)纯化和剪切DNA。
(5)使用链霉亲和素珠分离生物素标记的片段。然后进行测序。
Q4: 如何知道Hi-C测序的质量如何?
A: 上图A中,与随机产生的read(绿色)相比,染色体内(蓝色)和染色体间(红色)相互作用的片段的reads明显更接近HindIII限制性酶切位点。随着距HindIII位点的距离增加,染色体内读数和染色体间读数曲线都迅速减小,直到染色体在〜500 bp处达到平稳为止。500bp是用于测序的最大片段大小。图B说的是,通常,55%的可比对的reads 对代表染色体间相互作用。15%表示间隔小于20 kb的染色体内片段之间的相互作用,而30%的reads表示间隔大于20 kb的染色体内的相互作用。这种分布可以作为质量控制的一种形式。
Q5: Hi-C数据的分析流程是什么?
参考:生信技能树:3D基因组之Hi-C数据分析(大全), 三维基因组学研究之Hi-C
(1)数据过滤。
(2)比对:比对的方式主要分两种,一种判断每条reads是否含有酶切位点,有则去掉酶切位点之后的数据在进行bowtie2单端比对;另一种采用单端比对的策略,以25bp为起始长度,每次增加5bp直到该reads比对到基因组具有唯一性。
(3)寻找酶切片段;比对寻找到reads pairs在基因组物理位置之后,通过插入片段大小的限制搜索reads pairs两端每条read所对应的最近的酶切片段。酶切片段的位置代表了DNA交互产生的大致位置。
(4)筛选fragment pairs
(5)HiC分析:只需要Valid Pairs
Binning:将Valid Pairs的交互信息mapping到基因组的位置,最终转换成为每两个bin的交互强度。
(6)交互矩阵标准化;标准化方法主要分为两类,一类是基于矩阵,进行数学上的标准化,例如迭代等,另一类是基于生物学意义(例如mappingability)上的标准化。
(7)可视化
Q6: Hi-C测序的结果图怎么看?
A: 染色质相互作用可以用热图表示,其中x轴和y轴代表基因组顺序的基因座。通常来说,线性基因组中非常接近的DNA片段将倾向于相互频繁交互。所以在热图中可以看到对角线的相互作用很高(下图)。下图展示的是14号染色体内的基因座相互作用:
上面图A对应于14号染色体上染色体内相互作用的热图。每个像素代表1-Mb位点和另一个1-Mb位点之间的所有相互作用。红色密度对应于reads的数量。刻度线每个刻度10 Mb。使用Hi-C数据集计算给定基因组内一对基因座(loci)的平均接触概率,产生一个期望矩阵(B)。matrix A和B两个矩阵的商是观察/期望的矩阵(C),其中富集显示为红色。块模式变得更加明显。Person相关矩阵(D)说明了14染色体的每对基因座的相互作用相关性。
你还可以看染色体之间的相互作用:
上图A中,相互作用的概率随着染色体1上基因距离的变化而降低,最终在90Mb达到平稳(蓝色线)。不同染色体间相互作用的水平对于不同的染色体对是不同的。1号染色体上的基因座最有可能与10号染色体上的基因座(绿色)相互作用,最不可能与21号染色体上的基因座(红色)相互作用。相对于染色体内相互作用,染色体间的相互作用被消除了。图B里所有染色体之间的观察/预期热图。红色表示富集。一般富含基因的小染色体往往存在更多的相互作用。
Q7: TAD图怎么看?
我在实验室人的汇报里看到类似如下的图:
参考:TAD:拓扑关联结构域简介
这其实是染色质相互作用图里对角线一侧的数据。这种重复出现的(红色三角)内部互作频率高,组间互作频率低的domain,称为topologically assocaited domain, 简称TAD。这个图怎么理解呢,我发现了生信修炼手册
公众号里的一张图片,非常简单易懂:
两个大红三角的中间被称为:TAD边界。
那么如何识别染色质中的TAD,这里有一个名词:DI,方向性指数。用于量化基因组区域的上游或下游相互作用偏差的程度,发现在TAD边界区的偏差很大。(参考:3D基因组入门笔记)
TAD与Chip-Seq结果一起看(图片来自:3D基因组入门笔记):
TAD图和Chip-seq一起看,可以看在TAD边界处或内部,不同的protein或者染色质修饰mark的结合情况。比如上面这个图,CTCF可以帮助染色体折叠,那么它结合的地方,显然是很难与其他地方相互作用的,所以与绝缘子相关。