ATAC-seq:利用转座酶研究染色质可进入性的高通量测序技术
染色体/质结构:细胞核DNA与组蛋白相结合,DNA缠绕在组蛋白上形成串珠式结构,因此染色质结构高度折叠(压缩)。
Tn5转座酶预先载入测序接头,在切除DNA的同时对DNA片段进行标记,ATAC-seq就是通过用Tn5转座酶探测开放的染色质来鉴定可接近的DNA区域。纯化标记的DNA片段,通过PCR扩增并测序。 然后可以使用测序reads来推断可接近DNA区域以及转录因子结合位点和核小体位置的区域。
本文主要参考Harvard FAS Informatics介绍ATACseq分析流程。
1.试验设计:为了确保观察到的任何信号都是由于生物效应而不是某个特定样品或其处理的特异性造成的,建议每个实验组重复两次。在制备用于测序的文库时,应使用尽可能少的PCR循环扩增样品。对于人类样本的研究,推荐每个样本至少有5000万个mapping reads。另外,应该建议采用双末端测序方法对ATAC 样品进行测序,因为双末端测序,有助于减少这些模糊比对;对于ATAC-seq,我们感兴趣的是DNA片段的两端,这只有使用双末端测序才可以达到目的;双末端测序能更准确地鉴定PCR重复。ATAC-seq数据集通常包含大部分源自线粒体DNA的reads,线粒体基因组中没有感兴趣的ATAC-seq峰,因此需要使用去污剂在测序前从样品中去除线粒体。
2.测序数据QC:利用FastQC对原始测序数据进行QC。
3.去除接头:对于源自短DNA片段的reads,3'末端可能含有Illumina测序接头,接头污染可能会影响基因组比对和下游分析,需去除接头。常见的去除接头的软件有Cutadapt和NGmerge,其中Cutadapt需要提供接头序列作为输入参数;而NGmerge不需要提供接头序列,但是它只适合双末端测序数据。
NGmerge -a -1 <sample>.R1.fastq.gz -2 <sample>.R2.fastq.gz -o <name> -v
4.比对:利用bowtie2将reads比对到参考基因组,在比对之前,应先构建参考基因组索引。
bowtie2-build <genome.fa> <genomeIndexName>
构建完索引之后,便可以利用bowtie2进行比对了,比对结果为sam格式,需将其转换为bam格式并进行排序。
bowtie2 --very-sensitive -k 10 -x <genomeIndexName> -1 <name>_1.fastq.gz -2 <name>_2.fastq.gz \
| samtools view -u - \
| samtools sort -n -o <BAM> -
-X:最大的DNA片段长度,默认为500bp
-k:报告每条read比对的最大数目,默认为1
-p:core数
bowtie2的比对结果示意图如下,左边为正确的配对比对:
5.Peak-calling:Genrich是一款经过广泛测试但是还未发表的用于Peak-calling的软件。Peak-calling需要经历多个步骤,包括去除线粒体基因组和PCR重复等,Genrich只需一行命令便可以完成所有步骤,其输出结果为ENCODE narrowPeak format。
Genrich -t <BAM> -o <OUT> -j -y -r -e chrM -v
Genrich的重要参数如下:
6.下游分析:Peak-calling是ATACseq数据分析中最重要的步骤,Peak-calling之后就能得到样本的可接近DNA区域,接下来就是根据实验设计和目的进行数据挖掘了。常见的下游分析包括可视化,峰的比较,峰附近的基因注释以及motif的发现等。我们可以利用bedtools intersect来检测2个峰文件的共同区域,也可以利用 bedtools subtract来检测2个峰文件的不同区域。ChIPseeker起初是为了ChIP-seq设计的峰注释软件,但其也适合于ATACseq。我们还可以利用HOMER来进行motif分析,该软件以peak文件为输入,检查已知motif和denovo motif的富集。