bedtools求overlap

1、概述

BEDTools是可用于genomic features的比较,相关操作及进行注释的工具。而genomic features通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件表示

2、格式说明

genome features: 功能元素(gene), 遗传多态性 (SNPs, INDELs, or structural variants), 已经由测序或者其他方法得到的注释信息,也可以是自定义的一些特征信息。

genome features的基本信息: 染色体或者scaffold的位置, 起始位置,终止位置,哪条链,feature的name

Overlapping / intersecting features: 两个genome features的区域至少有一个bp的共同片段

BED和GFF文件的一个差异:BED文件中起始坐标为0,结束坐标至少是1,; GFF中起始坐标是1而结束坐标至少是1。

3、使用方法

准备两个测试文件,

cpg.bed,其内容为

chr1    20  70  CPG_1

chr1    100 120 CPG_2

chr1    150 250 CPG_3

exon.bed,其内容为

chr1    10  40  exon_1

chr1    50  60  exon_2

chr1    130 180 exon_3

chr1    200 280 exon_4

使用默认参数,求这个文件的overlap,运行

bedtools intersect -a cpg.bed  -b exon.bed

结果为

chr1    20  40  CPG_1

chr1    50  60  CPG_1

chr1    150 180 CPG_3

chr1    200 250 CPG_3

可以看出,默认情况下只输出A中overlap的区域

添加-wa 参数, 再次运行

bedtools intersect -a cpg.bed  -b exon.bed -wa

结果为:

chr1    20  70  CPG_1

chr1    20  70  CPG_1

chr1    150 250 CPG_3

chr1    150 250 CPG_3

可以看出,加上-wa 参数后,只要A中的这段区域与B中区域有交集,就输出,而且overlap几次,就输出几次

添加-wb 参数,运行

bedtools intersect -a cpg.bed  -b exon.bed -wb

结果为:

chr1    20  40  CPG_1   chr1    10  40  exon_1

chr1    50  60  CPG_1   chr1    50  60  exon_2

chr1    150 180 CPG_3   chr1    130 180 exon_3

chr1    200 250 CPG_3   chr1    200 280 exon_4

可以看出,加上-wb参数后,除了输出A中的overlap区域外,还会输出B中的整个区间

加上-wa, -wb 参数,再次运行

1

bedtools intersect -a cpg.bed  -b exon.bed -wa -wb

结果为:

1

2

3

4chr1    20  70  CPG_1   chr1    10  40  exon_1

chr1    20  70  CPG_1   chr1    50  60  exon_2

chr1    150 250 CPG_3   chr1    130 180 exon_3

chr1    150 250 CPG_3   chr1    200 280 exon_4

可以看出,同时添加-wa和-wb参数会将overlap 区域成对输出

-c参数,统计A中每个区域与Boverlap的次数

bedtools intersect -a cpg.bed  -b exon.bed -c

结果为:

chr1    20  70  CPG_1   2

chr1    100 120 CPG_2   0

chr1    150 250 CPG_3   2

-v参数:只输出A中没有与Boverlap的区域

bedtools intersect -a cpg.bed  -b exon.bed -v

结果为:

chr1    100 120 CPG_2

可以看出,只要只要与B有overlap就不输出。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • introduction Bedtools is developed in the Quinlan lab at ...
    小浣熊嘎嘣脆阅读 649评论 0 0
  • BedTools 笔记 工具目的:探索、处理和操作基因间隔文件(e.g., BED, VCF, BAM)。 学习T...
    王诗翔阅读 9,283评论 0 3
  • 慑于千与千寻里的一句话 吃太胖会被杀掉的 对美味敬而远之 当倘着油滴的饼子 被放到我面前 我不管了 所有的抗拒 只...
    露出了真身可会被抱紧阅读 180评论 0 0
  • api接口符合规则 重新写接口返回方法支持post测试请求,支持postman json字符串请求(主要用于复杂嵌...
    慢慢来111阅读 373评论 0 1