原理
1.使用甲醛使三维空间上相邻的DNA之间形成共价键,使DNA交联
2.使用限制性内切酶切割相邻的片段形成相同的粘性末端
3.使用带有标记的序列填补粘性末端为平末端
4.将相邻的平末端的序列连接起来,形成一个环
5.将序列切割成小段,并用链霉亲和素磁珠将带有标记的小片段富集起来
6.洗脱磁珠上的片段,加接头,使用二代双末端测序的方法得到包含酶切位点序列的序列信息
这个视频把原理和实验的步骤说的很详细了:
https://www.jove.com/video/1869/hi-c-a-method-to-study-the-three-dimensional-architecture-of-genomes
分析策略
1.quality control 同 NGS analysis
2.比对到基因组上,比对的方式主要分两种,一种判断每条reads是否含有酶切位点,有则在酶切位点打断分割序列分别进行bowtie2单端比对;另一种采用单端比对的策略,以25bp为起始长度,每次增加5bp直到该reads比对到基因组具有唯一性(hiclib是这种)。无论哪种都是要进行单端比对,最后获得两端均匹配于基因组同一位置的reads(最可靠),以及单末端匹配到的reads(Imakaev,2012)也可以。
3.过滤reads要符合以下条件:
Read-level filtering:
①对错配数量和mapping质量MAPQ得分过滤②在参考基因组中利用酶切位点的信息列出一个列表,同mapping的结果相对比,也就是mapping到的reads附近应该存在酶切位点,去除附近没有酶切位点的reads,所以片段大小要设定一个阈值,比如选择在 500 bp 左右。
Read-pair level filtering:
获得两端均匹配于基因组同一位置的reads(最可靠),以及单末端匹配到的reads(Imakaev,2012)也可以。
Strand filters:
酶切位点两端的reads的方向要相反才行,都向内-><-和都向外<-->是合理的染色质构像,都向左<-<-或者向右->->,很可能是来自未消化的染色质的有效对或PCR人工产物。向内-><-的距离应该大于1kb,向外<-->的距离应该大于25kb
Distance filters:
Strand filters过滤掉的都是距离短的结果,Distance filters这种基于距离的过滤广泛用于早期的Hi-C数据,它对低分辨率Hi-C研究相当有效,经验数值是至少20-25KB,也就是过滤掉至少25KB以上的距离的序列。
最后是删除冗余的序列。
参考文章
Analysis methods for studying the 3D architecture of the genome (Ferhat Ay,2015)
染色质构象解析技术———Hi-C 及染色质构象信息提取 (胡文桥,2015)
标准化以及后续的指导基因组组装以及TAD,LOOP分析等后续看看论文再写