神灯宝典之三代重测序分析实录(二)

作者:云歌
审稿:童蒙
编辑:angelica

引言

以PacBio公司SMRT技术为代表的第三代单分子荧光测序平台为以测序为基础的科学研究带来了革命性的突破。目前该技术广泛应用于基因组Denovo、全长转录本检测、重测序等多个方向,并且在染色体结构变异(SV)的检测中有着不可替代的优势。

上一期我们聊了PB三代测序数据的类型、预处理、比对等基本内容。本期我们就一起聊聊基于比对结果检测染色体结构变异分析方法,没看过上一期的小伙伴可以移步文末查看往期回顾,希望大家看完收获满满。

1.染色体结构变异检测

1.1结构变异简介

染色体结构变异(SV)通常定义是长度大于50bp的插入(INS)、缺失(DEL)、重复(DUP)、倒位(INV)、易位(TRA)以及倒位重复(INVDUP)等复杂嵌合变异,其中占比最大的就是插入和缺失。结构变异各类型示意图如下所示:


关于染色体结构变异的定义和种类感兴趣的小伙伴可以留言,我们视情况另开一篇单聊。本次重点介绍SV检测的分析方法。

1.2 SV检测方法比较和介绍

三代SV检测软件比较少,目前常见的有PBHoney、SMRT-SV、Sniffles、PBSV等,下面文献测评SV检测的结果:


左边四列是PB结果,右边是ONT结果。从图中可以看出,Sniffles+NGMLR在SV检测时确实有出色的表现,同时由于读长的优势,三代数据检测SV方面,有碾压二代数据的优势。(注:文章发表时,PBSV并未发布)

1.3 Sniffles检测SV

Sniffles检测SV命令:

**sniffles -s 3 -z 2 -t 4 --report_seq --genotype -m aligned.sort.bam -v out.vcf --tmp_file ./tmp** 
** ##-s检测SV最少支持的reads数,-z检测SV最少支持的ZMW或者polymerreads数,-t指定线程数,--report_seq结果中输出SV序列,--genotype计算SV的基因型和定位频率AF**

需要注意的是Sniffles最佳上游比对软件是NGMLR,不少文献也使用MinMap2+Sniffles的组合进行SV检测,这两套组合适用范围也较广,同时支持PB和ONT平台的数据分析。再次强调,目前Sniffles不能使用pbmm2比对的结果。

  • 小技巧:-s参数需要特别注意,此参数直接决定了检出SV的数量和准确性,一般来说10X CLR可以设置3,30X CLR数据可以设置5~10,相同数据量和文库片段长度下,此参数设置越高,得到的SV越准确,同时也会减少检出数量,具体关系可以参考下图文献结果。

上图是NGMLR和Sniffles开发团队在Nature Methods发表论文的结果,根据同一套数据的不同深度和不同-s参数的设置,检测最近SV检测结果的精确率和召回率。

同时从上图也可以看出一般10X CLR数据就可以进行一些基本的SV检测,而想要达到很好的效果,30X左右CLR数据是一个比较好的选择。

1.4 PBSV检测SV

PBSV检测SV命令:

 **##生成svsig文件**
** pbsv discover sample.svsig.gz**

** ##输入svsig文件和参考基因组进行变异检测**
** pbsv call  -A 3 -O 3 ucsc.hg19.fa sample.svsig.gz output.vcf**
** ## -A 在全部样品中忽略小于给定数值reads支持的SV结果,-O 在每个样品中忽略小于给定数值reads支持的SV结果**

除上述示例中的参数,PBSV还有诸多筛选参数,包括输出的SV类型、长度、基因型等等,需要大家根据自己的实际项目情况,进行探索,选择合适参数。全部参数说明如下图所示:


2.结构变异结果说明

以50bp为临界,不论是小突变(SNV/INDEL)还是大的染色体结构变异(SV),通常情况下生成的结果文件均为vcf文件格式,也是信息分析中比较常见的一种格式,度娘里也有详尽的结果文件格式说明。这里只做简单介绍,辅助没有相关分析经验的小伙伴能更快地看懂结果文件。

2.1结构变异vcf文件说明

使用文本编辑器或者vim等工具打开vcf文件,开头通常是两个##的说明信息,从上到下通常是变异检测软件和版本,参考基因组的染色体名称长度等信息,以及下面非#开头正文各列的解释,一般都很详细,所以仔细看说明信息,其实不用查找资料也能看懂vcf文件给出的变异信息。

  • VCF的header信息

  • VCF的正文表头

    一个#开头的就是正文表头了,一般除最后样品名称外,表头名称都是固定的,ALT、INFO中记录的内容在上面都有详细解释。如果有多个样品合并的VCF结果,则会在后几列追加样品名称列,里面记录了每一个突变在每个样品里的具体信息:

  • VCF的变异信息
    下图展示的是FORMAT和样品两列,只选取两行进行展示:


    FORMAT规定样品列展示信息的内容和格式,如示例中就是展示基因型:支持此处和参考基因组一致的reads数:支持此处是检出变异的reads数,多个样品也是一样的道理。

2.2结构变异结果特殊说明

尽管vcf文件格式高度统一,在不同的软件或检测类型中,还是有一些小小的特别之处,如Sniffles结果中:


有些INS类型长度均为999M,在最终结果中,要尽量剔除这些结果,可以和正常结果对比下,别的突变都是PASS状态,而这个是UNRESOLVED(未解析),表示软件无法判断此处是否有变异。

此外,TRA(易位)的表示方式也比较特殊:

在本该是突变类型(INS/DUP等)的地方,变成了“N[chr....[” 这样的格式,这种表示方式代表了一个片段从一个染色体的某处转移到了另一个染色体的某处,如红框这里,表示chr15从0到22491442碱基链接了chr14 染色体的106771975-到末端。如果是N在前(N[......[),则表示文件第一列的染色体从头到第二列的位置,链接了括号里的染色体位置到括号染色体末尾。

上面介绍的概念有点小绕,不过大家自己对照图里去看,应该是能够理解的,同时新版的vcf格式官方说明文件里也有这种表示方式的介绍。此外除了上述格式表示TRA外,有些软件可能也用BND的标签来表示TRA,大家在使用的过程中多加注意就好。

3.小结

今天作为PB三代重测序系列的第二篇,从数据分析的角度介绍了重测序SV检测的分析过程和注意事项。结合第一篇内容,我们能完整地掌握PB三代人重检测SV的分析过程。
希望大家在使用的过程中灵活结合自己的项目情况,选择最优方案。纸上得来终觉浅,绝知此事需躬行,各位小伙伴,条件允许的情况下,不妨和小编一起实践起来~

下一篇会和大家聊聊SV多样品合并分析的场景,比如肿瘤成对样品如何筛选过滤,遗传病家系样品如何进行家系分析等等。

最后啰嗦一句,喜欢的同学们不妨转发给更多需要的同胞,共同学习和进步是我们创刊更新的不竭动力。

参考
1.Sedlazeck F J , Rescheneder P , Smolka M , et al. Accurate detection of complex structural variations using single-molecule sequencing[J]. Nature Methods, 2018.
2.Audano P A, Sulovari A, Graves-Lindsay T A, et al. Characterizing the major structural variant alleles of the human genome[J]. Cell, 2019, 176(3): 663-675. e19.
3.Wenger A M, Peluso P, Rowell W J, et al. Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome[J]. Nature biotechnology, 2019, 37(10): 1155-1162.

神灯宝典之PB三代重测序分析实录(一)
从生到死,是什么驱动了染色质的分相变化?
生信老司机教你做基因组项目
我命由天不由我!ecDNA,你所不知道的癌症内幕
如何使用软件自动对变异进行ACMG打分

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容