近日在 Archives of Pathology & Laboratory Medicine 杂志上发表了一篇题为Review of Clinical Next-Generation Sequencing(PMID: 28782984),关于二代测序在临床应用上的综述文章。作为一名基因检测从业人员,本人认为这是一篇非常专业、客观、系统的二代测序技术介绍,在这里为大家分享一点体会。新手上路,请大家多多包涵。本文对文章中间部分关于dry-lab进行摘译与总结,附个人观点。
现在二代测序已经普遍应用在遗传病检测与肿瘤变异检测,但是相对其他临床检测技术的发展历程二代测序是在临床领域中算是非常新的一个技术,许多临床检测从业者对二代测序的应用场景,检测技术方案,以及适用边界不是很熟悉。这篇文章的作者所在的明尼苏达大学最早在2012年就开始使用568基因的panel作为遗传病研究,并在2014年增加到2484基因的大panel,并且在同年开始提供针对21个基因的热点区域的基于血液肿瘤与实体瘤的检测服务。目前该实验室一年处理接近800个遗传病二代测序检测以及800个肿瘤类二代测序检测,文章的两位作者加起来一年签发超过1000个报告。
第三章:数据分析部分
测序的原始数据,需要经过一系列的生物信息处理步骤(一般习惯叫“管道”,pipeline),最终得到一个叫做VCF的专门存放变异信息的文件(Variant Call Format)。这些生物信息处理步骤包括原始数据分割(Demultiplex,因为二代测序通量很大,未免浪费并且优化成本,一般会在每个单一样本上加上index标签来区分,然后再合并pool在一起上机测序,因此原始数据需要根据index作拆分),质量分析(一般包括测序碱基质量,接头污染,有效信号簇生成的分布情况,简并重复序列等污染分析等,常用fastqc来处理此步骤),比对(比对到参考基因组,对于人类基因组重测序,目前主流比对到GRCh37或GRCh38),变异分析与注释。由于以上步骤较为繁琐与复杂,特别是对于不同的测序平台,甚至是对于建库方案的不同,都需要选择不同的分析pipeline,因此需要有经验的数据分析人员来维护一个成熟的临床二代测序服务数据分析业务。
作者在此着重强调了比对到参考基因组时的关键点,就是要注意重复的读序(reads),一般对于液相捕获方案(capture-based library)的文库,需要去除完全重复的读序,而对于扩增子捕获方案的文库(amplicon-based library)则不需要去除重复的读序。这是由于液相捕获时DNA模板是随机打断,因此只有插入片段的大小完全一样而且该模板DNA片段正好是起点与终点都重合的情况下,才会造成重复读序(duplicated reads),但是这个概率太低了,因此对于液相捕获的文库的重复读序绝大多数情况下是由于PCR扩增引起,因此需要舍弃;而对于扩增子方案的文库,由于读序由预先设计合成与混合的引物体系决定,因此肯定会有重复的读序,为了正确的评估变异频率,不能简单的把重复读序去除。
另外作者也强调,在正式进入生产环节前,临床二代测序服务必须要一步一步的从样本接收与提取开始,直到数据分析环节的验证。而且对于已有的项目,每个步骤的微小改变,都需要重新进行验证(详情请看文章的最后一个章节,验证与性能评估环节)。
假如流程中每个节点只是做单独验证,缺少联合验证,就好似下图中的两个抽屉,抽离出来单独看都是很完美,但是放一起就是大问题了,两个抽屉都打不开。
第四章:变异解读
对于变异的解释,是临床二代测序服务的最大难点,也是最消耗人力的步骤。不同于对已知致病热点的解读,对于目前常用的大panel与全外显子测序,甚至是全基因组重测序,检测的范围越大,越是会遇到更多的罕见变异或新发现的变异。
目前,最主流的做法是参照ACMG,AMP与CAP发布的一系列胚系变异解读指南,这些指南提供了变异致病的可能性的分类标准,把变异按照危害程度分为5个等级:致病,可能致病,意义未明,可能良性,良性(pathogenic, likely pathogenic, uncertain significance, likely benign, or benign)。分类的标准参考信息包括但不限于:该变异在对应参照人群的频率,该变异在病人群体中的概率,家系连锁分离证据,功能学实验,变异的类型与对蛋白功能改变的预测,该变异与其他已知的致病变异的相似性,通过数学模型预测功能改变,以及遗传方式等。
同时,作者强调,这些指南有其局限性,而且实现起来里面某些条件是基于主观判断,因此,在严格遵从这些指南下,在一次多个不同的实验室的验证时,这些实验室对同样变异的解读一致性大约是71%。另外作者还强调了,对于某些罕见变异,在人群数据库中比例很低,这样会导致解读隐性遗传类致病变异的困难,因为这些隐性遗传的致病变异在人群中外显率很低,容易被较严格的过滤条件过滤掉。另外,作者还提及了ACMG指南在2013年推荐向受检者报告的“额外发现”(incidental finding)的52个基因列表,该列表在2016年更新为59个基因。最后,作者提及了,临床上,选择检测哪些基因做检测是非常复杂以及难以决定的事情,选择单基因检测还是panel甚至是全外显子测序,不仅要从专业的角度考虑,也要考虑受检者的经济承受能力。
本人任职在良培基因生物科技(武汉)有限公司,主要从事二代测序相关服务。本文仅代表个人观点,不代表本人所在公司的立场,以上内容仅供同行交流与参考。