bamdst: bam文件深度统计

下载安装

git clone https://github.com/shiquan/bamdst.git
cd bamdst/
make

安装完成之后出现了可执行文件

使用

先看看example/里面有些啥

有一个bed区域文件和bam文件:MT-RNR1.bed, test.bam

再看看软件的使用方法

bamdst --help
USAGE : bamdst [OPTION] -p <probe.bed> -o <output_dir> [in1.bam [in2.bam ... ]]
or : bamdst [OPTION] -p <probe.bed> -o <output_dir> -
区域文件和输出目录是必要的,并且需要注意bed的格式,字段与字段之间一定是制表符,几个空格是不对的!

试一试

bamdst -p MT-RNR1.bed -o ./ test.bam

多了7个结果文件,分别来看一下

$ less -S chromosomes.report#该文件中存储的是从bam文件中获取的染色体深度、覆盖度信息
Chromosome        DATA(%)       Avg depth          Median       Coverage%        Cov 4x %       Cov 10x %       Cov 30x %
chrM       100.00            0.26              0.0           5.66            2.83            0.00            0.00
$ less coverage.report#信息太多了,我目前觉得比较重要的有
[Total] Raw Reads (All reads)    15
[Total] Mapped Reads    15
[Total] Properly paired    0#Paired reads with properly insert size
[Total] Fraction of Properly paired    0.00%
[Total] Read and mate paired    0#read1 and read2 paired.
[Total] Fraction of Read and mate paired    0.00%
[Total] Map quality cutoff value    20
[Total] MapQuality above cutoff reads    10
[Total] Fraction of MapQ reads in all reads    66.67%
[Total] Fraction of MapQ reads in mapped reads    66.67%
[Target] Average depth    0.26
[Target] Average depth(rmdup)    0.06
[Target] Coverage (>0x)    5.66%
[Target] Coverage (>=4x)    2.83%
[Target] Coverage (>=10x)    0.00%
[Target] Coverage (>=30x)    0.00%
$ less depth_distribution.plot#结合R可以做出目标区域的深度分布图
0       900     0.943396        54      0.056604
1       0       0.000000        54      0.056604
2       0       0.000000        54      0.056604
3       27      0.028302        27      0.028302
4       4       0.004193        23      0.024109
#左边三列分别代表:覆盖深度,对应该深度的碱基数,碱基占比(以目标区域的碱基数为分母);
#右边两列是高深度向低深度累加的值,分别是碱基数及其占比,累加到X=1为止。
$ less depth.tsv
#Chr    Pos     Raw Depth       Rmdup depth     Cover depth
chrM    650     8       6       8
chrM    651     8       6       8
chrM    652     8       6       8
chrM    653     9       6       9
chrM    654     9       6       9
#Raw Depth从输入bam文件中得到,没有任何限制;
#Rmdup depth去除了PCR重复的reads, 次优比对reads, 低比对质量的reads(mapQ < 20), 该值与samtools depth的输出深度类似;
#默认使用raw depth来统计coverage.report文件中的覆盖率信息。 如果要使用rmdup depth计算覆盖率,可使用参数"--use_rmdup";
#The coverage depth is the raw depth with consider of deletion region, so this value should be equal to or greated than the raw depth.
$ less insertsize.plot#做出两个接头之间的插入片段大小的图,理论上是根据read1和read2在染色体上的坐标信息求得,这时read1和read2要求比对到一条染色体上。
$ less region.tsv
#Chr    Start   Stop    Avg depth       Median  Coverage        Coverage(FIX)
chrM    649     1603    0.26    0.0     5.66    5.66
#目标区域文件每一个区域的统计,其中Coverage以X>0来统计
$ less uncover.bed
chrM    672     1603
#--uncover的值默认是5,从前面depth_distribution.plot文件中也能看出来,深度小于5的碱基数就是931;
#包含低覆盖或者是未覆盖的,通过"--uncover"规定“未覆盖”的阈值。
可选参数
#方括号中的是程序默认的值,即使不加这些参数,程序也按这个来
   -f, --flank [200]   flank n bp of each region
   -q [20]             map quality cutoff value, greater or equal to the value will be count
   --maxdepth [0]      set the max depth to stat the cumu distribution.
   --cutoffdepth [0]   list the coverage of above depths
   --isize [2000]      stat the inferred insert size under this value
   --uncover [5]       region will included in uncover file if below it
   --bamout  BAMFILE   target reads will be exported to this bam file
   -1                  begin position of bed file is 1-based
   -h, --help          print this help info

侧翼序列:指存在于编码区第一个外显子和最末一个外显子的外侧是一段不被翻译的核苷酸序列。侧翼序列含有基因调控顺序,如5端含有的启动子、 增强子,3端含有的终止子和多聚腺苷酸信号等,对基因表达起重要的调控作用。


练习

我用全外显子数据测试,20G的bam和一个20kb长度gene的bed,跑了9min。

#这是bed文件,后面的错误就是由此引起
chr19           1205798         1228434
#下面是coverage.report的报告,和已知不相符
#临床中用于基因检测的全外测序深度都是几十X的,
#并且对于捕获区域的覆盖度也是八九不离十,这里为什么会这么低?
[Target] Average depth    9.48
[Target] Average depth(rmdup)    8.12
[Target] Coverage (>0x)    46.70%
[Target] Coverage (>=4x)    21.99%
[Target] Coverage (>=10x)    14.74%
[Target] Coverage (>=30x)    10.55%
[Target] Coverage (>=100x)    2.45%
#原来是我的bed文件编辑错了,应该按照外显子来分区;
#否则,那些没有捕获的区域会严重拉低计算的深度和覆盖度

gene的外显子信息可以在哪儿获取?
NCBI查找基因可以找到外显子;
下载参考基因组时会有gff文件,里面有分区;
用annovar注释变异位点的时候,会用到很多数据库文件,hg38_refGene.txt、hg38_knownGene.txt、hg38_ensGene.txt里面也能查找到外显子信息。
(这是我现在查看外显子的方法,更简单的方法是什么呢?)

#重新编辑之后的bed文件,这一次运行时间是8min
chr19   1205798 1207203
chr19   1218416 1218500
chr19   1219323 1219413
chr19   1220372 1220505
chr19   1220580 1220717
chr19   1221212 1221340
chr19   1221948 1222006
chr19   1222984 1223172
chr19   1226453 1226663
chr19   1227592 1228435
$ less coverage.report#可以看到有明显的提高了
[Target] Average depth    36.37
[Target] Average depth(rmdup)    31.26
[Target] Coverage (>0x)    64.32%
[Target] Coverage (>=4x)    48.63%
[Target] Coverage (>=10x)    43.96%
[Target] Coverage (>=30x)    40.60%
[Target] Coverage (>=100x)    13.16%
$ less depth_distribution.plot#有1169个位点没测到,有点多啊!
0       1169    0.356838        2107    0.643162
1       336     0.102564        1771    0.540598
2       86      0.026252        1685    0.514347
3       92      0.028083        1593    0.486264
4       98      0.029915        1495    0.456349
5       18      0.005495        1477    0.450855
$ zcat region.tsv.gz | lsx
#这个文件的信息就非常有用,可以用来评估捕获效率,
#结合基因自身的结构还能探究其对捕获测序的影响
#Chr            Start           Stop            Avg depth       Median          Coverage        Coverage(FIX)
chr19           1205798         1207203         22.53           1.0             52.10           52.10
chr19           1218416         1218500         100.05          102.0           100.00          100.00
chr19           1219323         1219413         115.11          121.5           100.00          100.00
chr19           1220372         1220505         76.17           78.0            100.00          100.00
chr19           1220580         1220717         40.50           39.0            100.00          100.00
chr19           1221212         1221340         113.42          111.0           100.00          100.00
chr19           1221948         1222006         46.52           43.0            100.00          100.00
chr19           1222984         1223172         142.72          153.5           100.00          100.00
chr19           1226453         1226663         38.43           39.0            100.00          100.00
chr19           1227592         1228435         1.05            0.0             41.16           41.16
$ less uncover.bed#没有捕获的区域
chr19   1205798 1206763
chr19   1227592 1227638
chr19   1227647 1227654
chr19   1227664 1227680
chr19   1227688 1228435

reference

https://github.com/shiquan/bamdst
https://blog.csdn.net/biubiuv/article/details/40348135

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,084评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,623评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,450评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,322评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,370评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,274评论 1 300
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,126评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,980评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,414评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,599评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,773评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,470评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,080评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,713评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,852评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,865评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,689评论 2 354

推荐阅读更多精彩内容