MeRIP-Seq之exomePeak2使用教程call peak(1)

exomePeak2于2021年1月3日发布,其主要用于MeRIP-Seq的call peak和差异peak分析,下面是自己的一些经验分享给大家。有不对的地方,请大家指正。

1、exomePeak2安装

建议大家从bioconductor下载安装文件,本地安装,由于网速问题,BiocManager::install("exomePeak2") 命令行安装有时安装不完全,会出现报错。Windows系统下安装容易出现下载不完整和权限受限,但是MAC下却可以完整下载

2、call peak使用

exomePeak2用户手册call peak示例命令如下:

libraray(exomePeak2)

GENE_ANNO_GTF = system.file("extdata", "example.gtf", package="exomePeak2")

f1 = system.file("extdata", "IP1.bam", package="exomePeak2")

f2 = system.file("extdata", "IP2.bam", package="exomePeak2")

f3 = system.file("extdata", "IP3.bam", package="exomePeak2")

f4 = system.file("extdata", "IP4.bam", package="exomePeak2")

IP_BAM = c(f1,f2,f3,f4)

f1 = system.file("extdata", "Input1.bam", package="exomePeak2")

f2 = system.file("extdata", "Input2.bam", package="exomePeak2")

f3 = system.file("extdata", "Input3.bam", package="exomePeak2")

INPUT_BAM = c(f1,f2,f3)

# Peak Calling

sep <- exomePeak2(bam_ip = IP_BAM,

bam_input = INPUT_BAM,

gff_dir = GENE_ANNO_GTF,

genome = "hg19",

paired_end = FALSE)

sep

system.file命令主要用于提取exomePeak2包中的自带数据,本地数据命令如下:


#首先要设置好工作路径,文件都要在工作路径下。

GENE_ANNO_GTF =  "example.gtf"  # 本地gtf文件,尽量使用UCSC下载的hg38或hg19

f1 = "IP1.bam"

f2 = "IP2.bam"

f3 =  "IP3.bam"

f4 =  "IP4.bam"

IP_BAM = c(f1,f2,f3,f4)  #这一步需要有,IP_BAM是一个字符串向量

f1 = "Input1.bam" #与IP1.bam对应,以此类推

f2 = "Input2.bam"

f3 =  "Input3.bam"

INPUT_BAM = c(f1,f2,f3)

# Peak Calling

sep <- exomePeak2(bam_ip = IP_BAM,

bam_input = INPUT_BAM,

gff_dir = GENE_ANNO_GTF,

genome = "hg19",  #使用hg19还是hg38,取决于参考基因组序列

paired_end = FALSE)

sep

#IP1.bam IP2.bam IP3.bam和IP4.bam并不是代表4个不同样本的bam数据,是代表一个样本测序时4个lane的数据,在使用MAC2 callpeak时,需要将4个lane的数据合并为一个再进行call peak。exomePeak2可以不合并直接比对,当然也可以将比对后文件合并作为一个bam使用exomePeak2 call peak。自己的理解,不对的地方请大家指正。

# genome = "hg19",  这一行是注明使用hg19还是hg38.使用hg19需要下载BSgenome.Hsapiens.UCSC.hg19包,尽量手动下载,本地安装,这个包600多M,bioconductor直接安装,并不好用。使用hg38需要下载BSgenome.Hsapiens.UCSC.hg38,尽量下载后本地安装。

#exomePeak2包比对过程中,会出现如下报错(图1):

图1

#可能是由于比对软件使用的参考基因组序列是GRch38作为index,但exomePeak2主要依据的是从UCSC下载的hg38.fa和hg38.gtf,虽然GRch38和hg38是同一版本,但是两者仍然有差别,所以call peak过程中需要seqlevels进行基因名的统一,也就是说在使用exomePeak2 进行call peak,比对软件使用的参考基因组序列与exomePeak2使用的基因注释文件尽量统一,否则会出现上述报错。不统一的问题,我也仍未解决。



3 结果 

call peak结束后会直接创造一个文件夹,bed文件就在文件夹内。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容