Chip-seq 数据分析流程

从GEO下载数据

下载地址https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE121424
以第一个样本GSM3436194为例,点进链接后最下面有SRA链接(第二张图 ARX4901015),再点进链接,看到SRR8073138编号。



下载之前我们先写个文件记录要下载的文件与编号的对应关系,后面用的到。文件格式如下

(base) [longfei@localhost GSE121424]$ cat info 
SRR8073138  WT_DMSO_Input
SRR8073141  WT_DMSO_H3K4ME2
SRR8073142  WT_DMSO_H3K27AC
SRR8073143  WT_GSK_Input
SRR8073146  WT_GSK_H3K4ME2
SRR8073147  WT_GSK_H3K27AC

下载工具有多个,利用用R包GEOquery,使用aspera软件等。我们用最简单的方法,ncbi官方软件SRA Toolkit,请自行安装。

$ cat info | while read -a line;do (nohup prefetch ${line[0]} -O sra &);done

根据SRR编号循环后台下载到新建的sra文件夹中。

ls sra
SRR8073138.sra  
SRR8073141.sra  
SRR8073142.sra  
SRR8073143.sra  
SRR8073146.sra  
SRR8073147.sra

提取fastq文件

同样使用SRA Toolkit 工具,提取到fq 文件夹中。

cat info | while read -a line;do (nohup fastq-dump --gzip --split-3 -A srr/${line[0]}.sra -O fq &);done
ls fq
SRR8073138.sra_1.fastq.gz  SRR8073141.sra_1.fastq.gz  SRR8073142.sra_1.fastq.gz  SRR8073143.sra_1.fastq.gz  SRR8073146.sra_1.fastq.gz  SRR8073147.sra_1.fastq.gz
SRR8073138.sra_2.fastq.gz  SRR8073141.sra_2.fastq.gz  SRR8073142.sra_2.fastq.gz  SRR8073143.sra_2.fastq.gz  SRR8073146.sra_2.fastq.gz  SRR8073147.sra_2.fastq.gz
SRR8073138.sra.fastq.gz    SRR8073141.sra.fastq.gz    SRR8073142.sra.fastq.gz    SRR8073143.sra.fastq.gz    SRR8073146.sra.fastq.gz    SRR8073147.sra.fastq.gz

fastqc 质控

我只挑了其中的一个fastq文件看了下,一般都是处理好的,包括去接头和去除低质量的碱基。

fastqc fq/SRR8073138.sra_1.fastq.gz -o ./ --noextract

生成一个html文件和一个压缩包,传到自己的电脑上,打开html检查质量。

SRR8073138.sra_1_fastqc.html  SRR8073138.sra_1_fastqc.zip

将fastq文件比对到基因组上

此处使用软件bowtie2,提前下载好参考基因组文件,这里用hg19。

bowtie_ref=homo_ref/bowtie/hg19
mkdir sam
cat info | while read -a line;do ( nohup bowtie2 -x $bowtie_ref -p 4 -1 fq/${line[0]}.sra_1.fastq.gz -2 fq/${line[0]}.sra_2.fastq.gz -S sam/${line[1]}.sam & );done

将生成的sam文件通过排序变成bam文件,使用软件samtools。这两步可以通过管道合并成一步,省去生成sam文件占用空间浪费时间,但是我经常在这里遇到问题,所以分成两步。

mkdir bam
ls sam |while read sam;do (nohup samtools sort -O BAM -@ 4 -o bam/${sam%.*}.bam sam/$sam & );done

去除重复序列

使用软件Sambamba,可以查看我的另一篇文章Sambamba 去除重复工具

mkdir rmdup 
ls bam | while read bam;do  sambamba markdup -r -t 4 bam/${bam} rmdup/${bam%.*}.rmdup.bam ;done

使用 bamTools 工具质控

详细命令含义及结果含义移步https://www.jianshu.com/p/2fddb062c503
主要是看ChiP是否合格,想要的地方是否富集到了,区别于开头的测序数据质控。

plotCoverage

查看测序深度相关性

mkdir qc
plotCoverage -b rmdup/*bam \
--plotFile qc \
-n 10000000 \
--plotTitle "example_coverage" \
--outRawCounts coverage.tab \
--ignoreDuplicates \
--minMappingQuality 10 

plotFingerprint

比较input和实验组,如果差距不大,说明的富集的不好。

plotFingerprint \
-b testFiles/*bam \
--labels H3K27me3 H3K4me1 H3K4me3 H3K9me3 input \
--minMappingQuality 30 \
--skipZeros \
--region 19 --numberOfSamples 50000 \
-T "Fingerprints of different samples"  \
--plotFile fingerprints.png \
--outRawCounts fingerprints.tab

--numberOfSamples 参数主要是随机从样本中抽取的箱数来计算相对的覆盖度

使用 deepTools 工具生成bw文件可视化

详细命令含义及结果含义移步 https://www.jianshu.com/p/e7e2c65183fd

bamCoverage

此命令用于单个样本标准化生成bw文件,使得样本之间可以互相比较。bw文件可用IGV软件可视化。

mkdir bw
ls rmdup/ | grep -v bai | while read bam ;do \
(nohup  bamCoverage --bam rmdup/$bam \
-o  bw/${bam%*rmdup}.bw \
--binSize 10 \
--normalizeUsing RPGC \
--effectiveGenomeSize 2685511504 &);done

computeMatrix

将多个样本放入一个矩阵中,输入为上面生成的bw文件,为后续可视化作图做准备,如plotHeatmap,plotProfile作图。

mkdir result
nohup computeMatrix reference-point \
--referencePoint TSS \
-b 3000 -a 10000 \
-R homo_ref/hg19.bed \
-S bw/H3K4Me2_DMSO_a.bw bw/H3K4Me2_DMSO_b.bw bw/H3K4Me2_OG86_a.bw bw/H3K4Me2_OG86_b.bw \
-o result/H3K4me2_TSS.gz \
--outFileSortedRegions result/H3K4ME2_gene.bed \
--skipZeros \
-p 10 &

plotProfile

使用plotProfile生成gene在TSS区的富集图

nohup plotProfile -m H3K4me2_TSS.gz -out H3K4me2_TSS.png --perGroup &

使用 MACS2 call peak

** 参考 **
https://github.com/taoliu/MACS/
https://www.jianshu.com/p/0c272643f88b
https://www.jianshu.com/p/6a975f0ea65a

nohup macs2 callpeak -t rmdup/H3K9me2K.rmdup.bam -c rmdup/Input-K.rmdup.bam -f BAMPE -g hs -n H3K9me2K  -q 0.05 --nomodel   &
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,544评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,430评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,764评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,193评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,216评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,182评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,063评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,917评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,329评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,543评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,722评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,425评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,019评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,671评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,825评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,729评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,614评论 2 353