这是范德比尔特-英格拉姆(Vanderbilt-Ingram)癌症中心于2012年在《BMC Genomics》杂志发表的一篇关于链偏倚性的一篇文章,发表时间虽然距今已经10年,但仍可作为学习链偏倚性的一篇经典文章。
1摘要
背景: 当使用Illumina高通量仪器进行短序列测序时,有些时候正链和负链显示的变异类型却显著不同,一个可能显示是纯合突变,一个可能显示是杂合突变,这种现象被称为链偏好性。这篇文章中,用了Illumina短序列测序数据来评估链偏好性对genotype类型的影响,并用来探索链偏好性产生的原因。
结果: 文章从22名乳腺癌患者中收集了22个样本,并使用Illumina GAIIx测序仪和芯片对外显子组进行了检测。文章比较了测序数据genotype与SNP芯片数据genotype的一致性。结果显示,测序数据中具有极端链偏倚的SNPs与低链偏倚或无链偏倚的SNPs相比,一致性率并无显著降低。然而,这一结果可能受到外显子组测序和SNP芯片数据中SNPs交集太小的限制。文章进一步比较了低链偏倚和无链偏倚SNP与极链偏倚SNP之间的转换和颠换比例以及新非同义突变的数量,发现低链偏倚和无链偏倚SNP的整体变异质量更好。文章还发现,在这些样本的基因组位置上,链偏倚是随机发生的,并且在样本之间没有观察到一致的链偏倚模式。通过比较两种不同的比对软件,BWA和Bowtie,文章发现非常一致的链偏倚模式。因此,链偏不太可能是比对软件引起的。文章又使用两个新的独立数据集与不同的捕获方法和Illumina测序仪成功地复现了观测到的结果。
2 背景
尽管高通量测序产生的数据比其他传统手段更丰富,信息量更大,但是NGS数据的后续分析也出现了很多新的困难。对于测序数据最主要的挑战就是如何精确的检测SNP变异。很多因素都可以影响SNP检测的准确性。这篇文章主要关注链偏好性这一指标,它是影响SNP检测的主要因素之一。当由正链和负链推断出的genotype不一致时,就会发生链偏倚。例如,在一个基因组的给定位置,reads比对到正链输出了一个杂合genotype,但是reads比对到负链输出了一个纯合genotype,如表1所示。由于一些测序分析流程只会输出最终变异结果,不会将链偏好性这一参数暴露,导致这一参数并不广为人知。
没有标准的分析流程报告突变reads支持时,将其分为正链支持和负链支持。然而,链偏倚也引发了研究人员和开发者的关注,他们投入了一些精力来测量链偏倚。例如,我们广泛使用的Broad研究所开发的GATK工具,它对每个确认的变异会计算一个链偏倚得分。其他一些知名的测序分析软件Samtools 也会根据FIsher 精确检验计算链偏倚得分。对待链偏倚的通常做法是直接忽略它,或者将其作为一个过滤指标来减少假阳性SNP。然而,链偏倚在多大程度上会影响genotype类型还没有得到充分的研究。因此,本研究旨在检测链偏倚对genotype分型的影响,并试图确认造成链偏倚的原因。
链比对不平衡是一种reads比对到正链和负链数据量显著不一致的现象。在极端情况下,所有的reads都比对到一条链,导致另一条链完全没有覆盖。链比对不平衡也是一种链偏倚的一种形式。然而,从根本上来说,这是一种不同于链偏倚的问题。在之前的一项研究中,作者已经表明链不平衡比对是外显子捕获人工机制造成的,并不影响genotype的质量。因此,在本研究中,作者只关注于正链和反链genotype不一致的链偏倚。
3 方法
3.1 数据描述和处理
22例乳腺癌病人招募自上海乳腺癌项目(SBCS),该研究得到了上海癌症研究所和范德堡大学机构审查委员会的批准。使用QIAmp试剂盒进行DNA提取,使用Affmetrix 6.0 芯片进行genotype 类型确认。由Hudson Alpha 研究所进行测序,使用的仪器为Illumina GAIIx测序仪,测序类型为 72PE。使用安捷伦 SureSelect Human All Exon kit v1 进行探针捕获。使用BWA 软件将reads比对至hg19参考基因组。使用Picard进行去重,GATK软件进行indel realign、BQSR步骤。使用GATK Unified Genotyper进行变异检测和Genotype类型确认。
两组新的额外的独立数据集用于确定第一步部分的结果。第一个附加数据集包含6个样本,从1000基因组计划中随机选择,在Illumina GAII上测序,并使用基于阵列的方法进行捕获。第二个附加数据集是Illumina HiSeq 2000 测序的6个样本,用Illumina TruSeq捕获套件进行捕获。不同的捕获方法和测序器用于研究结果的鲁棒性。
3.2 链偏倚得分
测序数据在基因组同一个位置可以用一个2x2(a,b,c,d)的表格来呈现,其中 a,c 分别代表正链,负链主要等位基因的数目;b,d 分别代表正链,负链次要等位基因的数目。根据 2x2 的表格,可以用以下三种方法来表示链偏好性。其中SB和GATK-SB的值在0至正无穷之间,Fisher 值在0至1之间,所有的这三个值,值越小代表链偏倚越小,值越大代表链偏倚越严重。
3.3 链偏倚和genotype质量
Genotype的一致性(测序数据与芯片数据)可以作为测序质量控制的一项指标。例如,GATK 有一个内置工具,使用genotype 芯片一致性作为SNP 质量校准的标准。利用测序数据来推断genotype时,所有基因组位置可以分为纯合和杂合两大类。链偏好性一般不会对纯合genotype类型造成影响,因为无论链偏好性如何严重,它都不会引起genotype类型由纯合转变为杂合。因此,在文章的分析中,只考虑了被GATK's Unified软件判断为杂合子的SNP基因型。一致性定义为外显子组测序数据与SNP芯片数据之间基因型一致的杂合子SNP数目除以所有重叠(含外显子组测序)杂合子SNP芯片数据中的SNP。
Affymetrix 6.0 芯片与外显子测序重合的SNPs数量只占整个外显子测序的很小一部分。因此,作者计算了其他一些genotype质控指标,例如转换/颠换比例,新的非同义突变的的数量。根据文件的报导,转换/颠换比例在外显子区域为3.0,在其他区域为2.0;同义突变和非同义突变的比例也不相同;因为外显子捕获试剂盒不止捕获外显子区域,转换/颠换比例应该在2.0至3.0之间,这个比例依赖于外显子区域占整个捕获区域的比例。文章也比较了新数据中低偏倚、没有偏倚、严重偏倚SNPs中,转换/颠换的比例。此外,测序样本中新非同义突变的数量也是一个很好衡量假阳性率的指标。研究表明,在外显子测序中新的非同义突变的数量应该在 200-300之间,较多的突变数量很可能表示有较高的假阳性率。
3.4 引起链偏倚的原因
为了确定链偏倚的原因,作者想要首先确定链偏倚是否在被试中系统性地发生。因此,作者检验了样本间的链偏倚评分一致性。22个乳腺癌样本,总共有231对可能的配对。对于每一对样本,作者从其中一名受试者中选择链偏倚得分前20%的位置,并使用对中两个样本之间所选位置的链偏倚得分计算皮尔逊相关系数。通过只选择一对被试中一个被试的链偏置分数高的位置,我们可以有效地捕捉到两个被试者在同一位置的链偏置分数显著不同的情况。箱线图用于显示231对样本的相关性分布。
作者还假设后分析程序也可能导致链偏倚的原因。初始比对后,常用的富集步骤常用于降低基因分型假阳性率。这些步骤包括INDEL realign、BQSR和去重步骤。基于这些步骤作者使用了4种不同的流程来检测链偏好性:1、初始比对(无后续富集过程,被称为初始比对);2、重比对和去重步骤(被称为重比对);3、碱基质量值校正(被称为BQSR);4、重比对+BQSR;文章比较了各个处理流程链偏倚得分的皮尔逊相关性系数;也比较了不同比对软件Bowite和BWA计算的链偏倚得分。
4 结果
4.1 SNP芯片genotype 质量
22个乳腺癌样本使用Affymetrix SNP 6.0 进行genotype类型确定,并对芯片数据设定了严格的质控标准
4.2 测序数据质量
本次测序数据具有较高的测序质量。22个安捷伦捕获样本平均reads数为68.9百万条,平均测序深度为45X。6个Illumina TrueSeq 捕获样本平均reads数为93.8百万条,平均测序深度为48X。6个千人基因组计划样本平均reads数为67.9百万条,平均测序深度为59X。
4.3 链偏倚和genotype质量
为了评估链偏倚对genotype质量的影响,文章绘制了链偏好性得分百分位数与genotype一致性的比例的散点图,如图1所示,数据来源于外显子测序数据和SNP芯片数据。如果在正负两条链上都有较高的reads支持,链偏好性得分会更加精确。因此,这里设置了一个过滤条件,正链的支持深度≥10 & 正链的支持深度≥10。最终结果显示,当链偏好得分值在80%百分位数据至100%百分位数时,SB 和 Fisher 值在杂合genotype 一致性上都有微小的下降。
文章假设Affymetrix SNP的筛选标准筛选出的SNPs更容易被被测序方法捕获和测好。因此,两种方法交集的SNPs的质量比其余SNPs的质量更好,交集区域的一致率可能并不能代表外显子组测序所识别的所有SNPs的总体质量。为了验证这个假设,文章比较了Affymetrix 6.0 芯片的SNPs和其余外显子测序方法确认的SNPs的一致性,根据最小等位基因频率分组,如表2所示:
1、dbSNP和外显子测序交集区域的 Ti/Tv 比例为2.26,要高于所有测序区域的Ti/Tv 比例2.08,结果与之前的报导相符,dbSNP数据库中存在的SNPs的质量要高于新发现的SNPs。这种现象很容易被解释,新发现的SNPs存在较多的假阳性。
2、外显子测序和芯片数据交集SNPs(dbSNP和外显子测序交集区域的一个交集)具有最高的Ti/Tv 比例2.78,这证明了之前的假设Affymetrix SNP的筛选标准筛选出的SNPs更容易被被测序方法捕获和测好。
文章也对低偏倚、无偏倚的SNPs(链偏好性得分前10%)与严重偏倚的SNPs(链偏好性得分后10%)进行了比较,结果如图2所示:
1、根据SB和Fisher 值,低偏倚、无偏倚的SNPs质量值比严重偏倚的SNPs质量值高。根据Ti/Tv 比例和非同义突变数量。
2、根据GATK-SB值,得出了相反的结果,作者也解释了原因。如下表3所示,在两条链上,当非ref型等位基因的支持数远远小于ref型等位基因的支持数时,由于计算方法的差异,SB和Fisher分数表明在这三个给定的基因组位置上有很强的链偏倚,而GATK-SB表明在这些位置上有较低的链偏倚。GATK Unified Genotyper(杂合) 和 SNP芯片(纯合)对这三个位点的genotype类型的判断全不一致,这很有可能GATK Unified Genotyper 判断出错。这样就可以解释,GATK-SB与SB和Fisher 值不一致的原因。
4.4 引起链偏倚的原因
1、将两个样本随机配对,计算其链偏倚分数之间的皮尔逊相关系数。如图3所示,3种链偏倚得分的相关性系数的平均值都趋近于0。因此,表明链偏倚在基因组位点上并没有偏好性。
2、为了确定是否是比对软件造成的链偏好性,计算3种链偏倚得分在BWA和Bowtie两种比对软件的Pearson相关系数。如图4所示,相关性系数都在0.85以上,这一结果表明,链偏倚很可能不是比对的产物,因为使用不同的比对方法在相同的基因组位点上重现了高水平的链偏倚。
3、文章计算了方法部分描述的4种不同处理流程三个链偏倚得分的皮尔逊相关系数。如图5所示,除了RealignBAQ流程链偏倚相关性系数在0.7以下,其余流程的链偏倚相关系数的平均值都在0.9以上。这些结果表明,后分析步骤,如局部重组、重新比对和BAQ没有助于导致链偏倚。而采用局部重组+BAQ的流程有助于导致链偏倚。
4、如图6所示,realignBAQ引入了更多的SNP,具有更高的链偏倚。局部比对和BAQ程序都旨在降低SNP假阳性率,局部比对是通过调整比对,BAQ是通过调整indel区域周围的碱基质量评分。将两者应用于同一流程产生了负面影响,导致更大的链偏倚。
5 结论
1、链偏倚发生的位点在基因组上并不具有聚集性;
2、后续生信分析分析流程可能会导致链偏倚,特别是同时使用局部比对和BAQ的流程,应避免在同一流程同时使用这种组合。
3、BWA和Bowtie之间的等位基因频率分数的相关性非常高,表明链偏倚不太可能是由于(虽然不完全排除)比对过程产生的,而更可能是人工影响或由于文库准备或测序的错误,部分链偏倚也可能与样本有关。
5、Fisher和SB得分比GATK-SB分数更能捕获真实的假阳性SNP。通过将外显子组测序数据与SNP芯片数据进行比较,SB和Fisher评分表明,当链偏倚评分超过80百分位时,杂合一致性略有下降。
6、基因型质量控制参数,如Ti/Tv比例和新非同义突变的数量,文章观察到低或无链偏倚SNP的总体质量优于极端链偏倚SNP。链偏倚会对测序数据的基因分型质量产生负面影响。
6、当使用链偏倚作为过滤指标时要注意:只有极端链偏倚的SNP才应被视为假阳性候选突变。文章认为前10%的SNP是极端的。VarScan变异检测工具也使用前10%,而不是一个固定的数值分数作为链偏倚过滤指标。不加区别地使用链偏倚作为过滤指标将导致真实SNPs的大量损失。
6 参考文献
[1] Guo Y, Li J, Li CI, Long J, Samuels DC, Shyr Y. The effect of strand bias in Illumina short-read sequencing data. BMC Genomics. 2012 Nov 24;13:666. doi: 10.1186/1471-2164-13-666. PMID: 23176052; PMCID: PMC3532123.