1 摘要
这是一篇华大基因2019年发表于《BMC Genomics》杂志的一篇文章,名为《基于DNB技术的测序平台具有极低的index分配错误率能可靠的进行多样品测序》。随着大规模平行测序的应用,基因检测费用大幅下降。但是,在一些测序平台上 index 错误分配(比例超过1%)问题被反复报导。这篇文章调研了华大测序仪在该质控指标的表现,文章使用了3种文库构建方法: PCR方法的WGS测序,PCR-free的WGS测序, 两步法PCR。由于华大测序仪采用了独特的DNB技术(DNA Nanoballs), 利用 RCA(Rolling circle replication) 让 DNA 扩增成线性的螺旋结构,这种扩增方法可以避免错误的累积。最终结果表明采用 free-indexed 寡核苷酸时,单 index 错误分配的概率是1/36000000,说明在DNB创建过程中没有index-hopping的发生。此外,在规定操作步骤下,依赖于DNB技术构建的NGS文库具有极低样品错误分配比例,错误率可低至0.0001 - 0.0004%。
2 背景
随着测序仪的不断更新,目前 Illumina 的HiSeq、NovaSeq平台以及华大的BSISEQ、MGISEQ平台单个Lane的产出可以达到数百G至几T数据量。不同测序平台有相似的NGS流程,包括文库构建(核酸提取、片段末端修复、片段大小筛选、接头添加、选择性PCR扩增),测序,数据分析。目前普遍采用的最大化提升效率的方法是多样品平行测序,可以将唯一的index序列加到每个样本的DNA序列上,然后将多个样本进行混合、测序。在测序完成之后,再根据样品唯一的index序列对数据进行拆分,将测序reads分配给每个样品。多样本混合这一步是在文库制备这一步完成的,index序列可以通过两种不同的方式插入样品DNA序列中:1、indexed adapters 进行连接;2、使用indexed primers 通过PCR扩增的方式进行添加。
但是,研究者必须非常小心分析拆分后的数据,因为index错误分配会影响数据的质量,并导致假阳性。Index 的转换可以发生在多个阶段包括文库制备、测序和测序后处理步骤。具体包括:引物合成错误、引物污染、实验过程中的试剂污染、PCR过程中模板的改变、测序错误、生信分析错误。例如,据不同实验室的报导,Illumina 平台,特别是使用了新聚类试剂 ExAMP 后,整体index 错配的比例为 0.25-7%( 双index 接头)。尽管在依照 Illumina 白皮书的推荐流程进行操作时,结果可能不会受到大的影响,但当测序的目的是检测液体活检、肿瘤外显子或者单细胞测序中的低频突变时,只是使用常规的单端 Index 或双端 Index,结果影响显著。
这里,这篇文章验证了在使用PCR-free 和 DNB 纳米球优化技术构建文库、index 质量过滤时,BGI 测序仪在单 index 条件下几乎没有 index 的转换。这篇文章观测到的 index hopping的概率几乎为0,在单条Lane 中样品与样品间的错配比例接近 0.0004%。整体index 污染的比例比 Illumina 的index hopping 比例要低几个数量级。
3 结果
3.1 预期DNA 纳米球技术具有高 index 保真度
1、BGISEQ 测序平台使用 DNBs 和 cPAS 技术进行测序。DNB技术采用 Phi29 聚合酶进行复制,它具有较强的链置换活性,并通过滚动循环复制(RCR)过程实现线性扩增。
2、如图1 a 所示,根据华大平台的建库测序原理,每个扩增循环都是独立使用原始单链DNA模板进行复制,即使发生index hopping错误,错误拷贝并不会发生累积。因此,文章提出了华大平台的index hopping 概率极低的假设,为了验证这个假设,文章对两个重要对照进行了分析。
3、 华大平台测序原理,请点击此链接
3.2 对照样品中的Index 错误分配
1、如图2a 所示,针对BGISEQ-500 测序仪,标准WGS文库构建包括主要包括以下几个步骤:1、DNA片段化;2、末端修复及添加A尾;3、indexed adapter 连接(该步骤为每个样品添加唯一index 标记);4、PCR扩增;5、单链环格式(ssCir);6、DNB 准备。
2、为了检测BGISEQ-500 测序准确性是否受到 index hopping 的影响,文章采用3组 index 进行了实验:(1)indexes 1-8 分别与 8 个基因区域引物相连接,进行PCR扩增;(2)indexes 33-40也与8个基因区域引物相链接,加入不含DNA 模板的对照样本(水)中,进行PCR扩增;(3)indexes 41-48 在DNB前等体积的添加到 WGS 文库中,该批次 indexes 的作用是为了维持碱基平衡 。为了避免合成错导致的index 错配,从 IDT(U.S.)公司合成了indexes 1-8 ,从 Invitrogen(China)公司合成了indexes 33-48。
3、采用无措匹配进行拆分,然后比对到8个基因区域。BGISEQ-500 测序错误分配结果如表1所示。第一组对照中,indexes 33-40 用水作为模板时,Physical barcode hopping 发生的概率是1/36000000,这个数值并没有排除实验过程中引物污染的影响,因此也可以证实 3.1 部分的假设,Physical barcode hopping 发生的错误率极低。第二组对照,在实验组形成ssCir 格式之后与indexes 41-48 平衡文库进行了混合,最终平均错配的概率为 1/5000000,这错配概率代表了 形成ssCir 格式后的综合错配概率,包括 DNB 步骤产生的 index hopping、测序、生物信息分析、DNB测序错误。
4、平衡文库对照组(indexes 41-48)相对于空白模板对照组(indexes 33-40)具有更高的污染,这表明在DNB 测序中除了Physical barcode hopping外,具其他一些独立的错配机制。文章对这些机制进行研究,以优化实验流程,最小化错误分配。
注:这里Experimental groups 扩增的是8个基因区域(实验组),empty controls扩增的是水(对照组1),balancing library controls 为了文库平衡,这几个样品一起混合进行的测序(对照组2)。
3.3 “依赖标准PCR” 方法构建的WGS文库污染率观测
3.3.1 “依赖标准PCR” 方法构建的WGS文库——index 错误分配率
1、为了获得最优的样品 pooling 步骤,对比了5种样品 pooling 策略错误率。如图2a,图3a 所示,(1)在只有一轮磁珠纯化(Ad-1B)时错误率为2.6792%;(2)去除过量未连接的adapter-indexed, 又增加一轮磁珠纯化(Ad-2B)时错误率降为0.1365%;(3)在PCR扩增步骤后进行样品pooling时,错误率又降低了7倍,为0.0183%;(4)在ssCir 以及 DNB 步骤后进行样品 pooling 时,错误率降低不明显,分别为0.0158%和0.0142%。考虑到ssCir 以及 DNB 步骤后进行样品 pooling 会轻微增加工作量和花费,文章最终建议在PCR扩增步骤之后进行样品pooling。
2、对测序后的数据,根据index 1-8 按照1bp 容错进行了拆分,拆分率如图3b 所示,各个index的拆分率比较一致性
3.3.2 解释和减少观测到的 index 错误分配
1、如图3c 所示,显示了index 1-8 拆分后的reads 在 8个基因上的比对结果。高亮绿色标记为正确匹配,高亮黄色标记为错误匹配。
2、Index 错配可以有多个来源,包括实验操作、PCR错误、测序错误、引物合成错误以及拆分错误。为了探究错误的来源,对index 1-8 错误分配reads相关的DNBs 进行了追踪,并且分析了测序的质量。这些错配DNBs的Q30(79.24%)轻微低于正确DNBs(89.11%)。但是错配DNBs index区域的Q30(36.66%)要显著低于正确DNBs index区域的Q30(91.19%)。又对错配DNBs研究发现,是信号泄露导致DNBs中的index错配,最终没有检测到真实的index信号。大多数这种情况可以通过过滤Q30(60%)进行去除,过滤Q30后,总reads数下降了4%,样本间的错配率降到了0.0001%。
3、如图3c所示,index7 中有相当部分的reads都比对到了EFEMP2 和 LOX 基因。对这些错误分配的reads进行核验后发现,这些reads的index 与index7 完全匹配,与EFEMP2基因对应的index2 和 LOX基因对应的 index3 差异较大,说明不是拆分的问题。而且这些错配reads 碱基质量都比较好,不是信号泄露问题,不能通过Q30进行过滤。种种因素分析,更像是引物合成时的污染,导致index 7 结合的引物中包括了EFEMP2 和 LOX 基因引物,去除index7 的全部数据后,污染率有明显的下降可以证明观点。这表明引物合成污染也是index 错误分配的重要因素。
3.3.3 PCR-free 文库构建流程的污染率
1、为了验证图3c 中的稀有突变是否在 PCR-free文库中持续存在,后续验证使用了PCR-free构建文库的方法。(华大基因的SeqHPV 基因分析型试剂盒就是采用PCR-free建库,它利用靶向PCR扩增,首先富集了人HPV病毒的L1衣壳基因区域,然后用PCR-free进行建库)。使用6个HPV阳性样本,62个YH(亚洲人基因组)阴性样本、4个空白水对照样本进行了验证,采用的建库策略如图2b。如表2a 所示,各个样品采用唯一 index进行连接。每行12个样品在PCR扩增之后进行混合,使用唯一库index进行连接。在形成 ssCir 之后然后6个文库进行混合,进行测序。
2、如表2b 所示,6个HPV阳性样本被精确检测,没有发现假阳和假阴。在PCR步骤设置了4个空白水对照样品,最终测序结果中水对照样本几乎没有reads支持。与上文的WGS 文库类似,样品间错配污染的率为 4reads/million ,在没有Q30 过滤条件下 index 污染的概率低至 0.0118%(见表2)。
3.3.4 two-step PCR 文库构建流程的污染率
1、如图2c 所示,为了验证 index 通过PCR方式进行添加时index 的错配情况,文章使用华大肺癌试剂盒进行了验证,该试剂盒使用了引物PCR的方式添加index 。
2、如表3 所示,index1-4 分别与 YH DNA(阴性样本)、EGFR L858R(1%频率)、KRAS G12D(10%频率)、EGFR 19del(50%频率)进行了连接。NRAS p.Q61H 也是肺癌试剂盒检测的热点,这里作为阴性对照样本。这里用 UIDs(unique identifiers 唯一识别码) 的方法进行了测序错误的校正以及 PCR 的去重。
3、如表3所示,在使用UID进行去重之前,index 污染比例为0.000 - 0.5%。在去重之后,大部分的错配reads 降为0,只有KRAS G12D 还有少部分的reads错配,文章解释的原因是可能是引物特异性。
4、最终,结果证实单 INDEX 、DNB 技术的华大测序平台不易受到 index 错配的影响,可以用于检测低频变异,例如癌症变异。
4 参考文献
[1]Reliable multiplex sequencing with rare index mis-assignment on DNB-based NGS platform.[J]. BMC genomics, 2019.
5 测序原理
华大测序原理
https://www.jianshu.com/p/116ca52a9085
华大官网视频
https://www.mgi-tech.com/Resource/webinars_info/id/5