Pindel检测“复杂INDEL”的一次测试

写在前面

最近在实际工作中,遇到了一些“复杂InDEL”容易漏检的问题;这是由于在肿瘤组织中,一些插入和缺失可能同时发生于基因组的相同或相近的位置,造成了之前使用的SNV检测软件存在漏检风险。为了解决这个问题,这几天测试了Pindel软件在检测复杂INDEL方面的表现。

Pindel的使用

使用conda安装Pindel后,直接命令行运行pindel就可以查看软件的操作文档。其中基本的参数如下,如果要检测全部染色体,-c参数可以省略。

 pindel -f <reference.fa> -p <pindel_input>
           [and/or -i bam_configuration_file]
           -c <chromosome_name> -o <prefix_for_output_file>

其中第二个参数可以使用-p-i,实话说我没有搞清楚-p参数需要输入的pindel_input文件到底是什么,所以选择了-i,bam_configuration_file是一个配置文件,所有的bam文件以及insert size的信息就存放在这个文件里面,然后软件通过读取这个文件来作为它的输入,这个文件的内容格式如下:

# bam_configuration_file用tab或空格分隔;第二列即为insert size,大概即可;可输入多个bam
sample.bam  150   sample  

除了基本参数,pindel还有其他可选参数,其中我将-M参数由默认的1改为2,即变异支持数最少为2个,参数解释具体如下:

-M/--minimum_support_for_event
           Pindel only calls events which have this number or more supporting 
           reads (default 1) 

结果文件

Pindel将不同的SV输出在不同的结果文件中,并在文件名中标注变异类型:

-rw-r--r-- 1 xu informatics      0 Jun  6 14:32 sample_BP  # BP = unassigned breakpoints 
-rw-r--r-- 1 xu informatics      0 Jun  6 14:32 sample_CloseEndMapped
-rw-r--r-- 1 xu informatics 259655 Jun  6 14:34 sample_D # D = deletion
-rw-r--r-- 1 xu informatics      0 Jun  6 14:35 sample_INT_final
-rw-r--r-- 1 xu informatics   8037 Jun  6 14:33 sample_INV # INV = inversion
-rw-r--r-- 1 xu informatics      0 Jun  6 14:32 sample_LI # LI = large insertion
-rw-r--r-- 1 xu informatics      0 Jun  6 14:32 sample_RP
-rw-r--r-- 1 xu informatics 242141 Jun  6 14:34 sample_SI # SI = short insertion

但是这种结果文件的格式并不太易于阅读,也不方便后续处理,因为它看起来是这样的:

      1 ####################################################################################################
      2 0       D 1     NT 0 "" ChrID 1 BP 20915589     20915591        BP_range 20915589       20915593        Supports 11     11      + 6     6       - 5     5       S1 
      3 GAGTCCAAACCATGGGAGGCTCCTCTCCTAGACCCTGCATCCTGAAAGCTGCGTACCTGAGAGCCTGCGGTCTGGCTGCAGGGACACACCCAAGGGGAGGAGCTGCAATCGTGTCTGGGGCCCCAGCCCAGGCTGGCCGGAGCTCCTGTTTcCCGCTGCTCTG
      4                                                                                                                                                 CCTGTTT CCGCTGCTCTG
      5                                                                                                                                                 CCTGTTT CCGCTGCTCTG
      6                                                                                                                                                 CCTGTTT CCGCTGCTCTG
      7                                                                                                                                                TCCTGTTT CCGCTGCTCTG
      8                                                                                                                                                TCCTGTTT CCGCTGCTCTG
      9                                                                                                                                                TCCTGTTT CCGCTGCTCTN
     10                                                                                                                    TGGGGCCCCAGCCCAGGCTGGCCGGAGCTCCTGTTT CCGCTGCTCTG
     11                                                                                                                   CTGGGGCCCCAGCCCAGGCTGGCCGGAGCTCCTGTTT CCGCTGCTCTG
     12                                                                                                        TGCAATCGTGTCTGGGGCCCCAGCCCAGGCTGGCCGGAGCTCCTGTTT CCGCTGCTCTN
     13                                                                                                  AGGAGCTGCAATCGTGTCTGGGGCCCCAGCCCAGGCTGGCCGGAGCTCCTGTTT CCGCTGCTCTG
     14                                                         CTGAGAGCCTGCGGTCTGGCTGCAGGGACACACCCAAGGGGAGGAGCTGCAATCGTGTCTGGGGCCCCAGCCCAGGCTGGCCGGAGCTCCTGTTT CCGCTGCTCTG
     15 ####################################################################################################
     16 1       D 6     NT 0 "" ChrID 1 BP 26235085     26235092        BP_range 26235085       26235136        Supports 6      6       + 6     6       - 0     0       S1 
     17 TGGGTTTGTTGGGAGATGCCTGGTTCTGCCAGTCTGTGACAATGTTCCAAGCTCCTCACAGCTGCTTGAGGACTGAGAGGGCTGGGTTAAAGTTTCCCCTAGAATGAGCCTTTGAATAAAAAGGTGCTTTTGAGGTGGGATTCCTGTCCTTttattaTTATTA
     18                                                                                                        ATGAGCCTTTGAATAANAAGGTGCTTTTGAGGTGGGATTCCTGTCCTT      TTATTA
     19                                                                                                 CCCTAGAATGAGCCTTTGAATAAAAAGGTGCTTTTGAGGTGGGATTCCTGTCCTT      TTATTA
     20                                                                                        TAAAGTTTCCCCTAGAATGAGCCTTTGAATAAAAAGGTGCTTTTGAGGTGGGATTCCTGTCCTT      TTATTA
     21                                                                                GGCTGGGTTNAAGTTTCCCCTAGAATGAGCCTTTGAATAAAAAGGTGCTTTTGAGGTGGGATTCCTGTCCTT      TTATTA
     22                                                                  TTGAGGACTGAGAGGGCTGGGTTAAAGTTTCCCCTAGAATGAGCCTTTGAATAAAAAGGTGCTTTTGAGGTGGGATTCCTGTCCTT      TTATTA
     23                                                   GCTCCTCACAGCTGCTTGAGGACTGAGAGGGCTGGGTTAAAGTTTCCCCTAGAATGAGCCTTTGAATAAAAAGGTGCTTTTGAGGTGGGATTCCTGTCCTT      TTATTA
     24 ####################################################################################################
     25 2       D 19    NT 13 "GATTCCTGTCCTT"   ChrID 1 BP 26235075     26235095        BP_range 26235075       26235095        Supports 2      2       + 2     2       - 0
     26 ACTTGGCTTCTGGGTTTGTTGGGAGATGCCTGGTTCTGCCAGTCTGTGACAATGTTCCAAGCTCCTCACAGCTGCTTGAGGACTGAGAGGGCTGGGTTAAAGTTTCCCCTAGAATGAGCCTTTGAATAAAAAGGTGCTTTTGAGGTGGGAT            
     27                                                                            TTGAGGACTGAGAGGGCTGGGTTAAAGTTTCCCCTAGAATGAGCCTTTGAATAAAAAGGTGCTTTTGAGGTGGGATGATTCCTGTCCT
     28                                                                         TGCTTGAGGACTGAGAGGGCTGGGTTAAAGTTTCCCCTAGAATGAGCCTTTGAATAAAAAGGTGCTTTTGAGGTGGGATGATTCCTGTCCT
     29 #########

因此Pindel很贴心的提供了一个脚本——pindel2vcf,可以将上述的结果文件转化为vcf格式。pindel2vcf使用的方法如下:

 pindel2vcf -p sample3chr20_D -r human_g1k_v36.fasta -R 1000GenomesPilot-NCBI36
              -d 20101123 -v sample3chr20_D.vcf

or (with -P): pindel2vcf -P sample3chr20 -r human_g1k_v36.fasta -R 1000GenomesPilot-NCBI36  -d 20101123 -v sample3chr20_all.vcf

使用-P 参数可以将所有结果文件转为VCF,-p参数可以指定其中的一个结果文件,上面示例就是只把Deletion的结果文件转为VCF。由于此次测试我只关注INDEL,所以只转出了两个文件:

-rw-r--r-- 1 xu informatics   4352 Jun  6 14:40 sample_del.vcf
-rw-r--r-- 1 xu informatics   9079 Jun  6 14:43 sample_insertion.vcf

测试结果

作为测试的两个复杂INDEL最终都被Pindel成功检出了,100M左右的bam数据分析用时不到半个小时。

第一个INDEL

Pindel的结果记录:

7    55242463        .       AAGG    A       .       PASS    END=55242466;HOMLEN=1;HOMSEQ=A;SVLEN=-3;SVTYPE=DEL     GT:AD   0/1:1259,876
第二个INDEL

Pindel的结果记录:

7       55242467        .       AATTAAGAGAAG    AGC     .       PASS    END=55242478;HOMLEN=0;SVLEN=-11;SVTYPE=RPL;NTLEN=2      GT:AD   0/1:327,137
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,295评论 6 512
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,928评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,682评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,209评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,237评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,965评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,586评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,487评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,016评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,136评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,271评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,948评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,619评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,139评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,252评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,598评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,267评论 2 358

推荐阅读更多精彩内容