写在前面
这里我将chip-seq&ATAC-Seq的分析分为了上游和下游两个模块,但是都只是介绍了常规的分析流程。因此,在面对具体课题的下游分析时,仍需要根据自己想要探究的问题进行个性化的分析。
一、介绍
具体的实验方法与流程抽空单独写一节
二、分析流程概述
ATAC-Seq和Chip-Seq都是对特定基因组区域进行的测序方法,在分析流程上有很大的相似性,因此在这一节同时介绍一下两者的分析方法。
Tips:这里先介绍一下上游的分析流程,在数据的质控和比对方面所有组学均大同小异。
2.1 指控与过滤:trim_galore
trim_galore -j 40 -q 20 --gzip --length 30 -o <输出文件名> --paired <read1.fastq> <read2.fastq> 2>&1 trim.log
2.2 基因组比对:bowtie2
# 1. 创建索引文件
bowtie2-build <fa文件> <索引名 genome>
# 2. 双端比对
bowtie2 -p 80 -t -N 1 -L 25 -X 2000 --no-mixed --no-discordant -x <索引(位置)名 genome> -1 <干净的read1.fastq> -2 <干净的read2.fastq> | samtools sort -O bam -@ 60 -o <输出文件名> 2>&1 | tee -a bowtie2.log
2.3 去除无用读段(PCR重复 & 线粒体基因组):sambamba & samtools
在RNA-Seq中,由于一个基因有多个转录本(一个细胞中),难以区分相同的片段究竟是PCR重复还是同一基因的不同转录本,因此不去除相同的reads,但是在Chip-Seq & ATAC-Seq中,一个基因(单拷贝)只有两组基因序列(一个二倍体细胞),因此相同的reads大概率是PCR重复,因此需要去除。
另外,由于大多数细胞中线粒体的染色质可及性都很大,因此在进行ATAC-Seq分析时,通常会将其去除。(如果不关注线粒体基因组,Chip-seq也可将其去除,部分采用Micrococcal酶的Chip-seq技术在实验过程中就会将线粒体基因组切碎。)
# 去除PCR重复
sambamba markdup -r -t 80 --overflow-list-size 600000 <aliged.bam> <去除PCR重复的aliged.bam> 2>&1 | tee -a markdup.log
# 去除低质量与线粒体基因组(ATAC-Seq必需)
samtools view -@ 40 -h -q 15 -f 2 <去除PCR重复的aliged.bam> | grep -v chrM | samtools sort -O bam -@ 40 -o <去除PCR重复和线粒体(干净)的aliged.bam> 2>&1 | tee -a filter.log
2.4 生成可视化输入文件:bamCoverage
将bam文件转化为可以在IGV软件中可视化的bw(覆盖率轨迹)文件,在这一步中可以对数据进行对应的标准化处理。
# 可选择是否对片段进行延伸 -e
# chip-seq
bamCoverage --binSize 100 --normalizeUsing RPKM -p 40 -b <干净的aliged.bam> -o <coverage.bw>
2.5 寻找特性型富集区域(call peak):macs2
macs2是一种寻找reads特异性富集区域的方法,即寻找蛋白质富集区域(Chip-Seq),染色质开放区域(ATAC-Seq),在鉴定peak富集模式时,有broad domains和narrow peaks两种模式。(具体原理参考官网,有空可以写一篇文章)
# 根据使用的方法选择是否对片段进行延伸,细节注意看官网
# chip-seq: 此处显示的代码用于无对照的chip数据
macs2 callpeak -f BAMPE -g <有效基因组大小> -t <干净的aliged.bam> -n <输出文件名> -q 0.01 --nolambda --nomodel -B --outdir <输出文件位置>
# ATAC-seq: 此处显示的代码用于无对照的ATAC数据,由于atac关注剪切位点,因此可将片段向5‘移动100bp,随后向3’延伸为200bp的片段(--shift -100 --extsize 200)
macs2 callpeak -f BAMPE -g <有效基因组大小> -t <干净的aliged.bam> -n <输出文件名> -q 0.01 --nolambda --nomodel --shift -100 --extsize 200 -B --outdir <输出文件位置>