Harvard FAS Informatics出品的ATAC-seq测序指南

Harvard FAS Informatics出品的ATAC-seq测序指南

github链接:harvardinformatics/ATAC-seq

参考文献:ATAC-seq: A Method for Assaying Chromatin Accessibility Genome-Wide

ATAC-seq测序推荐双端测序,推荐数据量:15G (150PE)

分析流程

1. FastQC查看测序数据质量

ls *.fastq.gz | xargs -I {} -P 20 -n 1 echo ~/biosoft/fastqc/FastQC/fastqc {}  -o ~/disks/diskd/data/project/lungCancer/gse79209/fastq/qc -t 30

2. 去除接头序列

(1)如果知道接头序列的话,用cutadapt去除接头序列

cutadapt \
            --cores=CORES \ 
            -a AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC \
            -A AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTAGATCTCGGTGGTCGCCGTATCATT \
            -o 101N.trimmed_1.fq.gz -p 101N.trimmed_2.fq.gz \
            /mnt/data/data/lncRNA/101N/101N_1.fq.gz /mnt/data/data/lncRNA/101N/101N_2.fq.gz 

(2)如果不知道接头序列的话,使用NGmerge去除接头序列

NGmerge -a -1 <sample>.R1.fastq.gz -2 <sample>.R2.fastq.gz -o <sample>

3. 序列比对

(1)构建bowtie2索引

(2)序列比对

推荐使用bowtie2进行序列比对(alignment)。常用的参数有以下几个:

  • ==-X== 最大DNA片段长度(默认是500bp)
  • ==--very-sensitive== 默认参数是--sensitive,使用--very-sensitive可以取得更好的序列比对效果
  • ==-p== 多核运算

默认输出格式问SAM文件,包含了每个序列的比对信息。SAM文件可以压缩为BAM文件,并使用SAMtools进行排序。最佳的分析流程为:

bowtie2 --very-sensitive -x <genomeIndexName> -1 <sample>_1.fastq.gz -2 <sample>_2.fastq.gz | samtools view -u - | samtools sort - > <BAM>

(3) 比对序列调整

a. 线粒体reads

ATAC-seq数据一般含有相当比例的线粒体DNA,详见该讨论。可以使用CRISPR技术去除线粒体基因组污染。也可以参考最近发表的Omni-ATAC方法用去污剂去除线粒体DNA,这种方法对于多数研究人员可能更易于操作,但是不要按照他们的分析流程来分析数据。

不管使用何种实验方案,得到的测序数据中多多少少都会有线粒体DNA。因为线粒体基因组中没有ATAC-seq感兴趣的峰,这些数据会使后续分析变得复杂,因此,推荐在下一步分析之前去除线粒体DNA序列。可以通过下面两种方法中任一种实现:

  • 在比对之前,将线粒体DNA从比对使用的参考基因组中去除。该方法的缺点使比对数会看起来比较差,因为所有的线粒体DNA序列都将被记为未匹配序列。
  • 在进行比对之后去除线粒体DNA。可以使用Harvard FAS Informatics编写的python脚本去除线粒体RNA序列removeChrom
samtools view -h <inBAM> | removeChrom - - chrM | samtools view -b - > <outBAM> #该程序在Harvard超算运行代码,可以根据自己服务器进行更改

# 可能的解决方案如下:
samtools view -h <inBAM> | python /path/to/removeChrom.py - - chrM | samtools view -b - > <outBAM> 
b. PRC重复序列

PCR重复序列是完全一致的reads。

java -jar $PICARD_TOOLS_HOME/picard.jar MarkDuplicates I=<inBAM> O=<outBAM> M=dups.txt REMOVE_DUPLICATES=true

c. 非特异性的序列

二代测序得到的短序列中,有一些序列会匹配到基因组的多个区域。一些学者在分析数据时会通过samtools view中的-q参数将这些非特异性的序列去除。对于这种非特异性的序列,bowtie2或bwa只会报告一个比对的结果,同时会给一个低匹配质量的(mapping quality, MAPQ)评分,匹配质量定义为: -10 * log10Pr{mapping position is wrong}。可以通过下面命令来去除MAPQ<10的序列。

samtools view -b  -q 10  <inBAM>  >  <outBAM>

4. Peak calling(找峰)

Model-based Analysis of ChIP-Seq (MACS2)是一款用于检测基因富集区域的软件。尽管是为ChIP-seq设计的,但也适用于ATAC-seq测序及其他有小峰的基因组富集分析。MACS2软件的主程序是callpeak。
可以将前期处理好的比对序列文件作为MACS2的输入文件。然而,一定要记住:比对上的序列只是ATAC技术产生的DNA片段的一部分。因此,必须考虑如何用MACS2来解读这些比对序列。

(1)用于分析的比对序列

对于双端测序书来说,比对序列主要分两种类型:成对匹配的和单一匹配的序列。当使用MACS2分析数据时,应事先决定哪种比对序列可用于后续分析。主要有以下三个选择:

  • 只分析成对匹配的序列,单是忽略R2序列,并将R1视为单一匹配序列。这是默认的选项(-f AUTO)。

  • 用-f BAMPE选项,只分析成对匹配的序列。相比第一种方法,更推荐使用这种方法来处理成对匹配的序列。

  • 分析所有的序列。ATAC-seq分析流程中SAMtoBED脚本可以实现。这个脚本可以将比对的序列转换成BED区间,对于成对匹配的序列,直接转换,对于单一匹配的序列,有以下四个选项:忽略他们;保持原状;将他们延申到任意长度(与MACS2的--extsize选项类似);或将他们延申至到完美匹配序列的平均长度(-x选项)。示例如下:

samtools view -h  <BAM>  |  SAMtoBED  -i -  -o <BED>  -x  -v

# 如果在自己服务器上运行,可以相应调整代码
samtools view -h <BAM> | python /path/to/SAMtoBED.py -i - -o <BED> -x -v

输出为BED文件,可以用MACS2 -f BEDPE命令处理。

  • 注意:此处不能使用BEDTools中的bamtobed软件来处理,因为它的输出文件不是MACS2可以处理的标准文件。

(2)其他参数

除了前文中描述的一些参数,MACS2还有一些其他参数可以设置。下面是一些可以考虑的参数:

  • -n <str> 样本名称。输出文件会以此为前缀命名
  • -g <int> 有效基因组大小。小于实际基因组大小。默认选项是hs,对应的基因组大小事2.7e9。
  • -q <fload> 找峰的最小q值(矫正p值或FDR),默认值为0.05。降低q值会减少找到的峰的个数,但是会提高可信度。
  • --keep-dup <arg> 如何处理PCR重复序列。默认值是--keep-dup 1,去除所有可能的PCR重复。如果PCR重复序列已经用其他软件去除了,如Picards的MarkDuplicates选项,将该参数设置为--keep-dup all
  • --max-gap <int> 将显著区域聚类的最大间隙,默认值是50bp(v2.1.2_dev only)。
  • --min-length <int> 峰的最小长度,默认值是1000bp((v2.1.2_dev only))。
    ==注意==:MACS2不支持多核运算,因此只能使用一个核.
    MACS2分析线虫ATAC-seq数据,使用所有序列的完整命令大概长这样:
macs2 callpeak  -t <BED>  -f BEDPE  -n NAME  -g ce  --keep-dup all

(3) 输出文件

标准的macs2 callpeak程序有3个输出文件。如果有-n NAME参数,输出文件分布为:NAME_peaks.xls,NAME_peaks.narrowPeak,和NAME_summits.bed。最有用的文件是NAME_peaks.narrowPeak,它是一个bed文档,包含了所有峰的基因组坐标和不同的统计值(倍数改变、p值和q值等)。

5. 后续步骤

一旦完成一组样本的MACS2分析之后,可根据实验设计进行一些后续分析。

(1)可视化

可以将peak文件在基因组中可视化。模式生物的ATAC-seq数据,peak文件(NAME_peaks.narrowPeak)可以直接上传到UCSC genome browser中进行查看。如果peak文件没有表头的话,可以将下面的内容添加至首行:track type=narrowPeak
另外,可以使用IGV进行可视化。peak文件可以直接通过File -->Load from File选项上传。如果要对BAM文件可视化,需要用samtools对BAM文件进行排序并构建索引。

(2)比较峰文件

可以使用BEDTools来比较一组peak文件的异同。例如:bedtools intersect可以比较两个peak文件中相同的峰;寻找两个峰文件中差异的峰,如实验组和对照组,可以通过bedtools subtract命令实现。

(3)注释

ChIPseeker最早是用于注释ChIP-seq数据的,但是也适用于ATAC-seq数据的注释。ChIPseeker可以对基因的位置和其他特征进行注释,详细使用方法见ChIPseeker的使用指南

(4)寻找motif

HOMER可用于寻找motif。可以将peak文件作为HOMER文件的输入,来检测已知的motif和新的motif。

参考文献:

Andrews S. (2010). FastQC: a quality control tool for high throughput sequence data. Available online at: http://www.bioinformatics.babraham.ac.uk/projects/fastqc

Buenrostro JD, Giresi PG, Zaba LC, Chang HY, Greenleaf WJ. Transposition of native chromatin for fast and sensitive epigenomic profiling of open chromatin, DNA-binding proteins and nucleosome position. Nat Methods. 2013 Dec;10(12):1213-8.

Buenrostro JD, Wu B, Chang HY, Greenleaf WJ. ATAC-seq: A Method for Assaying Chromatin Accessibility Genome-Wide. Curr Protoc Mol Biol. 2015 Jan 5;109:21.29.1-9.

Corces MR, Trevino AE, Hamilton EG, Greenside PG, Sinnott-Armstrong NA, Vesuna S, Satpathy AT, Rubin AJ, Montine KS, Wu B, Kathiria A, Cho SW, Mumbach MR, Carter AC, Kasowski M, Orloff LA, Risca VI, Kundaje A, Khavari PA, Montine TJ, Greenleaf WJ, Chang HY. An improved ATAC-seq protocol reduces background and enables interrogation of frozen tissues. Nat Methods. 2017 Oct;14(10):959-962.

Heinz S, Benner C, Spann N, Bertolino E, Lin YC, Laslo P, Cheng JX, Murre C, Singh H, Glass CK. Simple combinations of lineage-determining transcription factors prime cis-regulatory elements required for macrophage and B cell identities. Mol Cell. 2010 May 28;38(4):576-89.

Langmead B, Salzberg SL. Fast gapped-read alignment with Bowtie 2. Nat Methods. 2012 Mar 4;9(4):357-9.

Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R; 1000 Genome Project Data Processing Subgroup. The Sequence Alignment/Map format and SAMtools. Bioinformatics. 2009 Aug 15;25(16):2078-9.

Martin M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet.journal. 2011;17:10-2.

Montefiori L, Hernandez L, Zhang Z, Gilad Y, Ober C, Crawford G, Nobrega M, Jo Sakabe N. Reducing mitochondrial reads in ATAC-seq using CRISPR/Cas9. Sci Rep. 2017 May 26;7(1):2451.

Quinlan AR. BEDTools: The Swiss-Army Tool for Genome Feature Analysis. Curr Protoc Bioinformatics. 2014 Sep 8;47:11.12.1-34.

Yu G, Wang LG, He QY. ChIPseeker: an R/Bioconductor package for ChIP peak annotation, comparison and visualization. Bioinformatics. 2015 Jul 15;31(14):2382-3.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,080评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,422评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,630评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,554评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,662评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,856评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,014评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,752评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,212评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,541评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,687评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,347评论 4 331
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,973评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,777评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,006评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,406评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,576评论 2 349