一、全外显子组 vs 全基因组概念
1. 测序范围
全外显子测序(WES)
仅针对基因组中外显子区域(约占全基因组的1-2%),即能够编码蛋白质的部分进行测序。
目标区域约为30-50 Mb(百万碱基对)。数据量较小,通常为5-10 Gb。
通常通过富集捕获的方法选择外显子区域进行测序。
全基因组测序(WGS)
涉及整个基因组的测序,包括编码区(外显子)、非编码区(内含子、调控区等)以及线粒体DNA。产生的数据量较大,通常为90-150 Gb。
覆盖范围约为3 Gb(十亿碱基对)。
2.测序深度及分析层次
WES
专注于外显子区域,能有效检测与疾病相关的编码变异(如单核苷酸变异和小片段插入/缺失)。
对非编码区变异无检测能力,无法全面解析调控区变异或结构变异。重点关注已知与疾病相关的基因区域。
WGS
提供全面的基因组变异信息,包括编码区和非编码区的变异、拷贝数变异(CNV)、结构变异(如染色体易位、倒位)和重复序列变异。
适合于未知致病变异的全面探索,尤其是非编码区变异的功能预测和临床意义评估。
3.应用场景
WES
疾病基因筛查: 适用于已知与编码区相关的单基因病研究或遗传病诊断。
快速诊断: 尤其适合明确的目标区域(外显子)的研究。
成本受限的项目: 在预算有限的情况下选择WES较为合理。
WGS
全基因组探索: 特别适用于寻找未知致病突变或复杂病变的研究。
癌症研究: 涵盖肿瘤特有的结构变异和非编码区调控突变。
进化研究: 提供全基因组范围的遗传信息,适合物种比较和群体遗传学。
4.优势对比

5.总结
人类全外显子组所占基因组比例不超过2%,但它包含了约85%与疾病相关的变异,因此在研究编码基因变异层面,全外测序是比全基因组测序更为经济高效的替代方法。全外测序适用于孟德尔疾病、肿瘤、复杂疾病等多个研究领域。对于表现出异质性的疾病,或者患者表现出多个系统受累的复杂疾病症状时,尤为适合使用全外测序。
二、全外显子组测序(Whole Exome Sequencing, WES)
· 基因(gene)是DNA中含有特定遗传信息的一段核苷酸序列的总称,是具有遗传效应的DNA分子片段,是控制生物性状的基本遗传单位。人类基因区间的大小可从数百个bp至超过200万个bp不等。根据人类基因组计划估计,人类拥有20000-25000个蛋白编码基因。
· 基因组(genome)指一个生物体所包含DNA的全部遗传信息。基因组由基因区域和非编码区域组成。人类的基因组大小约为30亿个碱基对(bp)(3GB),其中非编码区域占到绝大多数,编码蛋白质的区域仅占约2%左右。
· 外显子是基因组中能够转录组出成熟RNA的部分。人类拥有约18万个外显子,约占人类基因组的1%,即约3000万个bp(30MB)。
· 外显子组(exome)是基因组中所有外显子的集合。值得注意的是,通常所说的全外显子组测序,是指针对蛋白编码基因的外显子,很少涉及非编码基因。
· 全外显子组测序 (WES),也称为外显子组测序、全外显子测序,全外测序等,即对外显子组(基因组里的所有外显子)进行测序的方法。全外显子测序(Whole Exome Sequencing,WES)是一种高通量测序技术,用于对生物体的所有外显子区域进行测序。通过全外显子测序,可以有效地检测基因组中与疾病相关的变异,如突变、缺失、插入等。全外显子测序数据分析涉及多个层面的内容,如变异检测和注释: 分析外显子测序数据的首要任务是检测样本中存在的基因组变异,包括单核苷酸变异(SNV)、插入缺失(Indel)等。这些变异可能与疾病相关,需要进行详细的注释,包括变异类型、位置、影响的基因、功能等信息。

关于外显子,需要注意的一个特殊情况是非翻译区(UTR)。在mRNA的两侧分别存在5'UTR(前导序列)和3'UTR(尾部序列),它们的作用分别是调控翻译的启动和终止。它们由外显子序列构成,但不会被翻译成氨基酸。 所以,并非所有外显子序列都会被翻译成氨基酸。

三、WES检测流程及评估指标
检测流程
大体可以分为这3个部分:文库制备,测序,生信分析。
· 文库制备通常包含这些步骤:样本处理,DNA提取,定量,建库,杂交捕获,扩增,质控。
· 测序,目前的仪器包括国外Illumina公司测序平台,以及华大智造国产测序平台等。
· 生信分析的流程通常包含这些步骤:质控,拼接比对,去重和重排,变异检测,降噪和过滤,注释等。常用的软件有FastQC,BWA,GATK,ANNOVAR等。
一个完整的全外显子组测序,从样本处理到完成测序数据下机,测序公司通常需要1-2周左右时间。
评估指标
1. 中靶率
中靶率(On-target rate)是一个百分数,用来表示测序数据中有多少能够比对到目标区域上。
在基因组上有许多与外显子有同源性的部分(比如内含子和基因间区),在实际工作中,这些并不属于目标(外显子)的部分在杂交过程中也会被捕获下来。这种探针捕获到非目标区域片段的情况称为脱靶(off target)。脱靶的数据是无效的,不能用于后续分析。同等情况下,中靶率越高,由于脱靶产生的浪费越少,这款探针越好。
2. 覆盖度
覆盖度(coverage)经常是和深度一起出现的,比如“10X覆盖度”、“30X覆盖度”。“10X覆盖度为90%”指测序数据比对到目标区域后,有90%的区域被覆盖了至少10次,或者说有90%的区域有至少10条reads覆盖。
如果覆盖度没有和深度一起出现,则可以理解为“1X覆盖度”。比如“覆盖度为95%”,指95%的目标区域有至少1条reads覆盖到。换言之,有5%的目标区域连1条覆盖到的reads都没有,它们在这次测序中完全没被测到,被漏掉了。同等情况下,覆盖度越高,越少比例的目标区域被漏掉,这款探针越好。
3. 均一性
目标区域内不同的位点被覆盖的情况是不同的。比如一次WES测序的平均深度是60X,很有可能有的位点深度为10X,有的为40X,有的为90X这样的情况。均一性(uniformity)越好,即这些位点各自的深度越接近平均深度。
在实际工作中,我们根据期望达到的目标测序深度来分配数据量,即决定了这次测序的平均深度(平均深度=数据量/探针大小)。当某个区域的实际测序深度高于目标深度时,造成数据的浪费;而当某个区域的实际测序深度低于目标深度时,我们可能会认为这部分数据质量不好而丢弃它,导致这一区域无测序数据。均一性优良的探针可以帮助减少这两种情况的发生。
Fold-80是用来评价均一性的指标。它的定义是,为确保80%的目标碱基达到平均深度所需的额外测序的倍数。Fold-80越低,捕获效率越高,测序浪费越少。理想情况下的Fold-80为1。Fold-80越低,均一性越好,越能节约测序成本,这款探针越好。
4. 重复率
重复率(Dup rate)指的是重复序列(Duplicate reads)在总测序序列中的占比。由于这些重复序列不能带来额外信息,相反会影响变异检测结果准确性,因此需要在下游生信分析中去除这些重复序列。Dup rate越高,数据利用率越低,浪费的测序成本也就越多。同等情况下,重复率越低,越能节省测序成本,这款探针越好。
参考帖子:
https://blog.csdn.net/Da_gan/article/details/143948917
https://zhuanlan.zhihu.com/p/637492874
欢迎大家评论交流!
(每帖分享:岁月给予的远比带走的更多)