2021-评估不同软件组合检测ONT数据中germline SV的表现

1.Bolognini, D. & Magi, A. Evaluation of Germline Structural Variant Calling Methods for Nanopore Sequencing Data.Frontiers Genetics12, 761791 (2021).

总结:1)检测germline SV,深度推荐20x以上;2)支持reads数阈值设置,5-10条(得跟数据量相关呀,本文最高深度约50x,但是考虑到20x以上F值变化不大,所以这个阈值,最多能代表20x以上深度数据的设置);3)检测软件cuteSV相对其他软件表现更好,组合考虑时比对软件表现最好NGMLR,但是minimap2就差一点点,可以根据情况选择;4)多软件共同应用策略,在提高准确性方面有一定效果,但是看F值的话,cuteSV(单独与组合相对表现最好)的单独和组合的F值没有提升效果。


摘要:

使用模拟和真实的ONT测序数据,评估了5种结构变异检测软件(4种比对方法)的表现。关注点主要在比对,测序深度(down-sampling获得不同深度数据),和突变allele的深度对于不同类型、不同长度SV的检测和分型的影响。

评估的5种SV检测软件分别为:Sniffles、SVIM、cuteSV、npInv(只检测倒位)、pbsv。4种比对软件分别为:minimap2、NGMLR、Lra、pbmm2。

方法:

数据集:评估利用的测序数据,为GIAB项目中NA24385的ONT实测数据(约157G,只有7281插入和5464缺失),以及用VISOR模拟的数据SI00001(约154G,模拟了5027缺失,5027插入,300重复,300倒位,22易位)。金标准数据集为此样本GIAB和模拟数据的真阳SV数据集。

统计工具:统计precision和recall使用的truvari工具。SURIVOR统计检测的SV与真阳SV的交集;

结果:

1)NA24385数据集,SVIM经minimap2比对,比其他组合检测到更多的deletion(9566)和insertion(12818);用NGMLR比对时,pbsv检测到更多的重复(1941);用minimap2比对时,cuteSV检测到更多的倒位(156)和易位(37);「supp. figure S2」

SI00001数据集,cuteSV经minimap2比对,检出更多的插入和缺失;SVIM经minimap2比对先出更多的重复;cuteSV经NGMLR比对检出更多的倒位;pbsv经NGMLR比对检出更多的易位;「supp. figure S3」

2)minimap2比对后检测SV,与真阳SV数据集,交集最多的变异类型为缺失(4022 for the NA24385 dataset and 3368 for SI00001))和插入(4054 for the NA24385 dataset and 3101 for SI00001);「supp. figure S4」;NGMLR和Lra比对后趋势类似;

3)利用truvari统计precision,recall和F值,对于NA24385数据集,cuteSV经NGMLR比对后得到最高的SV检测和分型F值(分别约0.93和0.91);对于SI00001数据集,SVIM经minimap2比对后得到最高的SV检测F值(约0.93),cuteSV经NGMLR比对后得到最高的SV基因分型F值(约0.92);总体来说,cuteSV,SVIM和pbsv表现相当,F值均约0.9(cuteSV相对表现最好);Sniffles具有最低的recall值,特别是在SI00001数据集经Lra比对后。「Figure 1, supp table S4」

4)对于检测deletion,cuteSV, SVIM和 pbsv都能获得大于0.9的F值;但是对于insertion,NA24385数据集只有cuteSV经NGMLR比对后能得到,SI00001数据集也只有cuteSV经NGMLR/minimap2比对后能获得大于0.9的F值。对于重复,SVIM和cuteSV经NGMLR比对后比其他组合表现好;对于倒位,SVIM+minimap2,Sniffles+minimap2/NGMLR,npInv+minimap2, pbsv可以获得大于0.9的F值。pbsv和SVIM搭配minimap2检测易位获得最好的F值约0.9;Lra比对时任何检测软件都没有得到高质量的重复或者易位检测结果。「supp Figure S7」

5)通过down sampling抽取数据,构建5X, 10X, 15X, 20X, 25X, and 35X的数据,评估深度对检测SV的影响。从低深度到中高深度增加是对于SV检测和分型提到F值都有显著影响,高深度时再增加效果就不明显了。对于低深度NA24385数据,cuteSV经NGMLR比对后获得最高的F值(SV检测约0.8,分型约0.72),sniffles经Lra比对获得最低的F值(SV检测约0.6,分型约0.28)。SI00001低深度数据,cuteSV经NGMLR比对有最高的SV检测F值约0.7,pbsv的F值最低约0.43;sniffles经NGMLR比对有最高的SV分型F值约0.61,SVIM经Lra比对最低约0.32。「supp table S5,截图一部分,整体表现较好的组合,F值从数据看20x以上增加不明显了」

6)另外测试了SV检测时,设置最少支持的reads数的阈值,recall会随着阈值升高降低(precision相反),最终推荐的一个较好的平衡范围为选择5-10条reads支持(这得跟数据量相关呀,本文最高深度约50x,但是考虑到20x以上F值变化不大,所以这个阈值,最多仅能代表20x以上深度数据的设置)。「Figure 3, supp table S6(截图部分)」

7)利用SURVIVOR产生不同组合检出的数据,测试了怎么通过不同方法组合降低假阳性结果,结果显示对于NA24385数据集,通过组合经NGMLR比对后cuteSV,sniffles,SVIM的检测结果,SV检测的准确性和分型的准确性,相对单个软件获得的最佳准确性值,分别提高约2%和3%。consensus数据集准确性与其他组合相当约0.96,但是recall约0.89比其他组合高。对于SI00001数据集,组合策略没有显示出相对与单个软件检测显著的precision的提高,几乎所有组合的precision都约1,另外单独sniffles经NGMLR比对后的precision也大于0.99。「supp table S7」。

讨论:

推荐使用cuteSV,在检测SV和分型时F值都表现不错。分析低深度数据时,看用户自己关注点是precision还是recall,sniffles在考虑更好的precision时可以使用(但是不推荐用于分型),cuteSV或者SVIM则可以在考虑更高的recall时使用。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容