关于WES的简介

刘小泽写于19.1.4
今天随便写了些关于外显子的介绍,飞来珠海见了一群小伙伴,十分开心

WES(Whole Exome Sequencing)全外显子测序是对基因组中所有外显子进行测序分析的方法。首先利用DNA或RNA探针,将全基因组中外显子区域DNA进行捕获,然后对捕获的DNA进行PCR扩增,最后对扩增后的产物进行高通量测序。

什么是外显子?

外显子只占基因组的2%,却含有85%的已知致病变异,物美价廉

WES优势

  • 总花费低:虽然WES一般比WGS测序深度高(100X vs 30X), 但是WES的测序序列主要在占基因组2%的外显子区域,因此总的测序文件比WGS的测序文件小得多【平均测序深度为100X的全外显子测序文件的大小是6GB左右,而30X的全基因组测序文件的大小一般是90GB左右】
  • 测序深度高,WES更容易检测出罕见变异
  • 数据文件小,数据分析的速度就快
  • 跟非编码区相比,蛋白编码区的研究更透测,注释度更高

WES不足

  • 测序深度不均一,一些区域测序深度过高造成浪费,一些区域测序深度过低而无法检测到存在的变异。例如:一些SNP密集的区域,富集过程中RNA或DNA探针无法和该区域杂交导致无法有效捕获,该区域的测序深度就会过低;
  • 只测外显子区域(人类的外显子区域长度一般小于200bp),因而无法有效检测CNV、SV,一般用来检测SNV、INDEL
  • 受探针限制,新的编码基因无法捕获

评价质量指标

  • 碱基质量分数:测序过程中碱基被测序仪错误识别的概率
  • 比对质量分数:一个序列在参考基因组上比对正确与否的可信度
  • 变异质量分数:检测到的变异是否是生物变异的可信度【变异质量分数是变异位点所有序列比对质量分数的均方根

数据分析流程

第一部分:前处理流程

原始fq质控

第一步一定要查看fastq文件是否完整,是否存在错误

过滤

过滤的话一般是:去除低质量或者过短序列,剪切末端低质量的碱基,去除接头污染以及可能的外源污染序列

比对
  • 比对:序列比对到可信度最高的一个或者少数几个位置上去,可信度就是比对质量分数(mapping quality )【问题:由于参考基因组中存在重复序列等原因,有些序列可以同等地比对到不同的位置
  • 比对后可视化:IGV【用加过索引的BAM文件】,结果显示,外显子区域以外也有比对的序列。 一般情况下,这些序列不要去除,大范围内更多的比对序列有利于下游更精确的变异检测
    IGV默认颜色灰色表示该序列在基因组上的比对结果是单一的,且和序列对中另一个序列间的距离在正常范围内;白色说明该序列比对到2个或者2个以上的位置;其他颜色,说明与该序列配对的序列比对到了其它的染色体, 或者两个序列间的距离大于或小于正常的插入序列长度
比对后质控
  • 看比对情况:samtools flagstat 可以看总的比对率,成功比对的序列里多少个是pair-end序列,多少是单个的序列;idxstat 查看每个染色体的长度,该染色体上比对的序列数以及没有比对的序列数。
  • 原始比对结果质控:如果有一些比对质量较低或者错误比对的序列,为了下游变异识别的敏感性和精确性,减少假阳性生物变异的识别,需要质控,比如:去除重复序列、可疑的比对区域进行重新比对(Local Realignment)、重新校正碱基质量分数
  • 关于重复序列:建库过程中,需要进行多轮的PCR扩增。理想情况是每次PCR,每个区域扩增一次,得到两份。但是每次PCR中,扩增引物和不同模板结合力会存在差异,因此有的区域扩增产物大于一,就得到许多份,造成后续等位基因频率的定义以及基因型识别不准确。一般用Markduplcate功能去除重复序列
  • 关于可疑的比对区域进行重新比对:最初的比对过程中,比对软件将每个序列单独和参考基因组进行比对,但有时比对软件无法确定INDEL处是INDEL还是多个SNP,导致INDEL无法检测、SNP假阳性。GATK local realignment 就是对这些区域重新比对,使所有序列错配(mismatch)的碱基数目总和最小【例如:本来参考基因组中存在7个连续的T,测序数据中在这个位置出现了一个deletion,但是比对软件偏偏认为它是多个碱基错配,导致结果中少了一个deletion,反倒多了多几个SNV】
  • 关于碱基的质量分数校正:由于系统误差(可能来源测序过程化学反应试剂或者仪器报告不准),测序仪报告的碱基质量不精确,比实际质量分数偏高或者偏低。系统误差不同于随机误差,它是错误,应该被去除。
    GATK recalibration 利用机器学习的方法建立误差模型,然后对碱基分数进行调整,调整后可以提高后续变异识别的准确率,减少假阳性和假阴性的变异识别。但是,这个分数校正不能纠正碱基【例如:有一个低质量的C碱基,我们不知道它是不是应该是G,但是可以知道我们相信C是正确的概率是多少】

第二部分:变异检测流程

目的:找出比对结果中,样品数据和参考基因组不同的位点,并计算这些位点的基因型

假阳性的存在:

变异识别软件(variant caller)不可避免会识别一些非生物变异(也就是没有生物学意义的变异,例如:比对或者测序错误带来的数据和参考基因组之间的差异)。我们要努力去除假阳性带来的影响。

但是如何区分真正的生物学变异系统误差的非生物学变异呢?

目前最经常使用的就是:GATK VQSR (Variant Quality Score Recalibration)

关于VQSR

变异软件识别的每个原始变异都有一套对应的注释参数(如VCF的header行),根据这些参数进行聚类分析,真正的变异趋向于聚集在一起。

VQSR基于机器学习,基于群体遗传的原理,构建GMM模型,挑出和已知的变异集合Overlap的位点(如:已知且被严格验证的HapMap数据集)并分配相应的可信度权重来进行训练,训练出一个区分好变异的GMM,然后对全部数据进行打分,再把评分最低的那些拿出来,构成一个最不像正确变异的集合,用来构造一个区分坏变异的GMM,用来专门识别坏变异。最后同时用好和坏的GMM再一次同时对变异进行打分,看每个变异更像谁,就能够评判出这个变异可信的质量值。

VQSR要求比较高:好和坏变异可供训练的数目必须超过5000个,如果Overlap位点太少,无法有效训练出一个模型。因此对于WGS问题不大,但是单个的WES中加起来全部区域也就50Mb左右,外显子比较短,一般都小200bp,其中变异数目大约30K-40K,位点并不多,那么和已知的高质量变异集的overlap就更少。因此对于单个WES或者小panel(低于30 sample) 的都不适用,起码要30 sample+吧

VQSR过程一般需要SNP与Indel分别校正 ,但是也可以连续进行两次VQSR校正(第一次只对SNP校正,第二次只对Indel校正,最后再合并)

当然,如果sample不够多,数据集不够大,也可以设定阈值来手工过滤非生物学变异【注意:先分离SNP和INDEL,分别手工过滤后再重新合并】

第三部分 变异筛选、注释

筛选

因为比对会比对到参考基因组外显子区域外,因此变异识别软件识别出的变异也会有一些是分布在外显子区域之外的,可以可用bedtools和捕获区域文件,去除外显子区域外的变异,只保留外显子区域内的变异

注释

得到了外显子区域内高可信度的变异以后,可以在OMIM、HGMD、Clinvar、dbSNP等数据库进行注释

补充:

  • 接头污染问题:接头序列里一般包含三个重要组成部分:区分样品的barcode序列,PCR primer序列和测序引物结合的序列。插入测序列过短时,测序反应会超过待测序列而测到3’-端的接头序列,从而造成接头序列的污染
  • gVCF:gVCF 和VCF最大的区别是gVCF里含有基因组(或者感兴趣的区间)所有位点的碱基信息,不论该位点是否存在变异。

关于WES:https://ghr.nlm.nih.gov/primer/testing/sequencing

https://blueprintgenetics.com/tests/whole-exome-sequencing/

关于gVCF:https://gatkforums.broadinstitute.org/gatk/discussion/4017/what-is-a-gvcf-and-how-is-it-different-from-a-regular-vcf


欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com

Welcome to our bioinfoplanet!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容