测序深度
测序碱基总量
- 单端测序
=reads长度 * reads个数 - 双端测序
=单端reads长度 * 单端reads个数 * 2
通常测序数据量的单位都是用“G"表示,例如1G表示10亿个碱基。
此外,测序数据量还有另外一种表示方式,即cluster。一个cluster表示一个DNA片段(对于RNA-seq,则表示一个片段化后的RNA分子)。某一个样本测序数据量为30M 的 cluster。如果采用双端测序技术,每个cluster从两端都测一次,每次测150bp, 所以就会得到30M2=60M的reads数,然后reads数乘以每条read的长度就是最后的测序数据量(碱基数),即为60M150=9G的碱基数。
测序深度计算
测序深度(Sequencing Depth/depth of coverage)是指:测序得到的碱基总量(bp)与基因组(转录组或测序目标区域大小)的比值,是评价测序量的指标之一。衡量基因组中每个碱基被测序到的平均次数。
通常表示为1X、2X、3X、...(1、2或3倍覆盖)。
有效平均测序深度(mapped depth):比对上基因组的数据/去N区后的基因组大小。
seq depth = LN/G
L:读段长度
N:读段数目
G:测序目标区域大小
覆盖度
覆盖度(genome coverage/breadth of coverage)是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖所有的区域,这部分未覆盖的区域就称为Gap。coverage可以理解为基因组上至少被检测到1次的区域占整个基因组的比例。
对于全基因组
Depth = (6 * 28nt) / 112nt = 1.2 fold
Coverage = (46nt - 5nt) / 112nt = 36.6%
对于target区域
Depth = (6 * 28nt) / 46nt = 3.7 fold
Coverage = (46nt - 5nt) / 46nt = 89.1%
对于position
Depth = 6 fold
测序深度的理论计算
期望是基因组上每个碱基至少被测序到3次(对SNP检测来说,一个位点至少要大于3次,才被认为有效)的概率大于0.99。
假设基因组大小为G, 假定每次测序可从基因组任何位置上随机检测一个碱基。那么对于基因组上某一个固定碱基位置,在一次测序(每测一个碱基为一次测序)中,该位置被命中的概率为P (P=1/G)。由于基因组 DNA 长度长,在一次测序中,每个碱基被检测到的概率很小。而测序量增大时每个碱基被检测到的次数会显著增加。当某事件出现的概率很小,而试验次数N很大时,该事件符合泊松分布。泊松分布的概率由参数λ所确定。在实际应用中, 利用样本数据计算出平均值并用它来估计 λ。把x看作特定碱基被测到的次数,λ看作基因组的测序深度。在测序深度为10的情况下,一个碱基至少被测到一次的概率为1-P(0) ≈1。一个碱基至少被测到3次的概率为 1-P( 0)-P( 1) - P( 2) = 0.99。
碱基的覆盖深度符合泊松分布,某个碱基没有被测序到的概率为P(X=0) = e-c ,这相当于整个基因组的未覆盖率,而基因组的覆盖率则为1- e-c
在保证shotgun打断完全随机的理想情况下,碱基的覆盖深度完全符合泊松分布图,在10X的时候,基因组覆盖率即可达到100%。在实际实验操作中,打断不可能完全随机,打断的随机性根据样品情况,打断片段大小而改变。打断片段越大,其随机性也越差。环化大片段文库的随机性要低于小片段文库。
人基因组仍然存在很多Gap和N区域,究其原因在于存在很多高GC和高度重复序列。由于这些区域的存在,全基因组重测序的随机性会与理论会有一定的偏差,且在测序过程中某些序列测不出来,基因组覆盖度只能接近却达不到100%。
测序深度选择
对于全基因组测序(WGS)来说,人类全基因组大约3G,健康人一般需要测到30X,即获得90G有效数据;要可靠地检测基因组中的SNP和 INDEL,至少需要测到35X,产生105G的有效测序数据 [1]
人类基因中大约有180,000个外显子,占人类基因组的1%,约30MB。对于全外显子测序(WES)来说,由于目标区域的异质性增加,以及探针50%的捕获效率,需要更大的平均读取深度才能获得与WGS相同的覆盖范围,覆盖89.6-96.8%的目标碱基,需要测到80X [1]。
ENCODE2曾利用H1人胚胎干细胞做过评估,若研究对象是RPKM>10的基因,每个样本测到36 M reads就可以准确定量80%的基因表达。然而,对于低表达水平的基因(FPKM<10),要测到80 M reads才能准确定量。所以,如果需要在整个转录组准确定量所有基因(包括lncRNA基因),那么样本需要测到80M以上;如果只是研究表达量高的转录本的整体表达变化,那么每个样品36 M reads就足够了。
如果关注基因表达差异的分析,可以考虑适当牺牲样品的测序深度,增加样品数目,尽管这会导致每个RNA的测序精度减低。少量样本的深度测序虽然能检测到低水平表达的转录本表达差异,但是只有这种差异可重复时才能讨论其生物学意义,否则只能是假阳性结果。
[1] Sequencing depth and coverage: key considerations in genomic analyses