Hi-C 技术原理
Hi-C是染色质区域捕获(Chromosome conformation capture)与高通量测序(High-throughput sequencing)相结合而产生的一种新技术。通过甲醛处理将DNA与蛋白质交联在一起从而固定DNA的构象,并进行酶切、生物素引入、酶连和提取,然后对处理好的核酸进行文库构建和高通量测序,最终通过对测序数据进行分析即可揭示染色体片段间的交互信息。该技术仅利用单个个体就可以将基因组序列定位到染色体,从而进行染色体水平的研究。
Hi-C测序技术的优势
通过Scaffold间的交互频率大小,可以对已组装的基因组序列进行纠错(基因组更准确)。
基因信息不再仅仅是contig片段,而是被划分至染色体上,成为染色体水平。
无需辛苦的构建群体,单一个体就能实现染色体定位。
相比遗传图谱,标记密度更大,序列定位更完整。
研究染色体重排等结构变异。
QTL、GWAS定位更精准。
可以解析该物种的三维基因结构、染色体互作等。
示例
使用ALLHiC 软件进行Hi-C 数据染色体挂载
下载地址:https://github.com/tangerzhang/ALLHiC
测试数据来自于拟南芥
## 指定染色体条数
k=5
## 指定基因组路径
genome=./GCA_000222345.1_C24_2010-09-30_genomic.fna.gz
## 指定HiC数据路径
fq1=./NNJHic2_ACTTGA_R1.fastq.gz
fq2=./NNJHic2_ACTTGA_R2.fastq.gz
## 文件解压缩并构建index
gzip -dc $genome > ./genome.fasta
## 比对
bwa aln -t 6 genome.fasta $fq1 > sample_R1.sai
bwa aln -t 6 genome.fasta $fq2 > sample_R2.sai
bwa sampe genome.fasta sample_R1.sai sample_R2.sai $fq1 $fq2 > sample.bwa_aln.sam #合并结果
## 比对结果过滤
PreprocessSAMs.pl sample.bwa_aln.sam genome.fasta HINDIII
filterBAM_forHiC.pl sample.bwa_aln.REduced.paired_only.bam output.sam
samtools view -bt genome.fasta.fai output.sam > output.bam
## 划分contig成group
ALLHiC_partition -b output.bam -r genome.fasta -e AAGCTT -k $k
## 提取CLM文件和酶切位点个数信息
allhic extract output.bam genome.fasta --RE AAGCTT
## 排序和方向优化
for K in {1..5} do allhic optimize input.counts_AAGCTT.*g${K}.txt input.clm
## 得到最终结果groups.asm.fasta 和 groups.agp
ALLHiC_build genome.fasta
## 绘制heatmap 图
perl ./getFaLen.pl -i groups.asm.fasta -o len.txt
grep "input.counts_AAGCTT" len.txt > chrn.list
ALLHiC_plot input.bam groups.agp chrn.list 50k pdf