MACS2(Model-based Analysis of ChIP-seq)
usage:
macs2 callpeak -t TFILE -c CFILE -g GSIZE -n NAME
-t:--treatment file;
-c:Control file;
-f:--format {AUTO,BAM,SAM,BED...},默认为AUTO;
-g:GSIZE,Effective genome size,'hs' for human (2.7e9),也就是2.7G;'mm' for mouse (1.87e9);
-n:output NAME,Experiment name, which will be used to generate output file names. DEFAULT: "NA";
正式开始啦~
vim macs2.sh
#!/bin/bash
for i in 807 809 810 811 812 813
do
macs2 callpeak -t SRR13764${i}.bam -c SRR13764817.bam -g hs -n SRR13764${i}_macs2 --outdir ~/chipseq/fastq/clean_data/macs2
done
#提交
qsub -N macs -cwd macs2.sh -q g5.q
生成4种格式的文件:
NAME_peaks.xls: 以表格形式存放peak信息,是1-based;
abs_summit:代表峰值; pileup:代表peak 峰值的高度(pileup height at peak summit);-log10(pvalue) :pvalue of the peak summit;fold_enrichment:peak的富集倍数;-log10(qvalue):衡量错误发现率的指标(FDR,False discovery rate,所有检验中假阳性的概率);
NAME_peaks.narrowPeak:Bed6 format(bed格式中的前六列),是0-based,NAME_peaks.xls坐标-1是NAME_peaks.narrowPeak坐标;
NAME_summits.bed:记录每个peak的summits峰值;
NAME_model.r:能通过$ Rscript NAME_model.r作图,得到基于提供数据的peak模型。
参考:如何使用MACS进行peak calling - 简书 (jianshu.com)
1-based 对应碱基的位置 ( base-counted ),0-based 对应两个碱基之间的位置 ( space-counted )。参考0-based or 1-based? 详解常见生信格式的染色体坐标系统 - 知乎 (zhihu.com)
narrowpeak file 转换为 FASTA
上传本地macs2分析的narrowpeak file到Galaxy,利用 Galaxy workflow从SRR13764813_macs2_summits.bed文件提取fasta文件 。
其中peak左右延伸250bp,central 100 bp 用于 de novo motif discovery, the flanking 400 bp作为negative control。
下载workflow
Search for Downloadable ENCODE Files in the Human Feb. 2009 (GRCh37/hg19) Assembly (ucsc.edu)