二代测序中人全基因组外显子测序的流程主要为DNA的提取,将提取到的DNA制作成基因文库,将目标DNA片段进行富集,cluster(DNB)的生成,测序与数据分析。在RNA的测序环节还包括将RNA其转化成cDNA的过程等(全转录物组鸟枪法测序)
1.DNA的提取,包括如新鲜组织,血样,包埋组织这样的样本,我们先经过蛋白酶处理使DNA在液体环境中裸露出来,然后使用能够去抓取DNA的一种化学物质:磁珠,去抓取我们的DNA,这一步是为了让我们的DNA可以被富集并从体系里被分离出来。(在提取血样DNA的过程中,我们需要进行两部离心,分别是为了分离血浆,白细胞,红细胞和上清液,血小板,血脂)
2.之后,我们会进入到建库流程,全基因组测序,我们还要有一个超声打断的过程(大致打断到几百字节,过长或过短的会因无法被富集而pass掉),因为我们不可能把整个基因组完整的塞到测序仪里,二代测序的读长通常只是几百个字节,相当有限,同时我们要保证打断的程度,因为如果打断程度低,我们后面很可能遇到建库后片段数据量过大,导致测序深度不足这样的问题。由于建库所用试剂直接影响到后续测序环节,所以华大与ILLUMINA 平台平台的建库流程在这里就开始存在区别了。举例说一下ILLUMINA 平台:首先,在末端修复和加A这个环节上是一样的,(先把打断后的小DNA片段进行末端修复,使其左右两端均形成平末端,然后在双端的3‘端加上一个单独的A碱基,使其重新成为粘性末端),末修之后我们用磁珠去结合我们的DNA片段,在这个环节中,打断不合格的DNA片段会直接被排除到体系之外,然后再用乙醇去清洗我们的磁珠,使反应体系中包括引物底物酶这样的物质离开这个反应体系,之后是第一次添加接头,这一步我们只添加一种接头,一种环形接头,这种接头在末端有一个突出的T碱基,正好可以与加A的片段互补,我们用包含酶和接头的液体反应体系将磁珠重悬,实际上就是让抓取了DNA的磁珠和这个反应体系结合在一起,然后利用高温使我们的磁珠失去抓取能力让DNA片段游离在体系中实现第一步接头连接,接下来是第二步接头连接,这一步的主要目的在于添加index并在核苷酸链末端添加特定的核苷酸序列:P5P7,使其能够与流动池中的单链核苷酸特异性结合,(我们可以认为index是一种条形码,一种识别信标,通常长度在几字节到十几字节,二代测序最显著的特点在于我们可以同时对N多样本进行测序,这时为了不让我们在测序后不知道我们测的是什么东西,我们需要让我们的样本带上一个标记,就是index,P5P7是我们连接DNA链两端的可以和芯片结合并将测序片段固定在流动池的一段核苷酸序列,关于index,我们在通常情况下选择添加双端index,因为在后续测序环节,我们进行一次读取之后还需要进行反向的读取,这就需要我们的片段在lane上再扩增一次,这个过程会导致我们后续得到的荧光信号相较于第一次的结果发生移位现象,不过在个别文献中我们依旧能看到关于添加单端index的报告)这一步中我们用USERenzyme使上步的环状接头断开,让其形成特殊的Y形结构,以保证接头两端连接的序列(P5P7)是不同的,我们把包含双端index和P5P7及各种扩增反应所需基本化学物质的反应体系加入到上部体系里,进行PCR,这样一个一端到另一端的结构依次为P5,index,酶,待测序序列,酶,index2,P7的DNA链就可以做第二次纯化了。这里因为我们的反应体系中存在末修之后添加的磁珠,所以我们在这一环节需要让我们的磁珠重新具有抓取能力而不是用新的磁珠去继续实验,这里我们添加的化学物质为PEG的氯化钠溶液,在之前的高温反应中磁珠之所以会失去抓取能力是因为PEG在高温下被破坏,而不是磁珠本身在高温下发生理化性质的改变,在纯化之后我们用水将DNA从磁珠上清洗下来,下一个环节我们需要让我们的DNA碎片扩增,应用到的就是多聚酶链式反应,然后是我们最后一次磁珠纯化,得到的高纯度DNA需要先进行质控,以保证其能够进入到下一环节,若质控过关,接下来是杂交捕获的环节
3.我们所做的项目是人全基因组测序,但我们需要捕捉到的DNA片段只占总DNA的一小部分,所以我们要进行一步富集,也就是杂交捕获的实验,我们用能够特异性结合目标序列的基因探针来抓取我们需要的DNA片段,然后再利用这些探针的特殊理化性质让其能够从体系中被分离出来。在这个的过程中,探针的选择尤为重要,我们使用的包括单链DNA探针(IDT)和双链DNA探针(Twist)在我们判断是否需要进行互补链测序时可以提供更多的选择性,值得注意的是,探针的选择对于测序平台的选择没有太大的影响,因为我们只主观决定了是否保留并测序互补片段,另外我们在某些GC比例高的片段更倾向于使用RNA探针,这样会让我们的捕获效率提高,对于这件事,我们认为可能是GC含量较为极端的DNA链在RCR和测序环节受到了消耗,从而直接导致下机的数据受到影响。全外显子测序根据方向不同会使用到不同目的的探针,这时我们富集到的DNA片段也是不同的,如结合1123种癌症相关基因的探针;结合599种14种高发或高危癌症早筛的基因的探针等,探针在设计层面上,应该考虑到非MSI的重复序列的影响。在探针抓取DNA的过程中,会利用Universal Blockers暂时性封闭文库,防止这些序列发生自连或他连同样的,探针的一部分结构也是脱氧核糖核酸片段,我们为了形成完整的双链,在这步中还需要添加到如引物底物酶,然后,我们利用PCR仪(实际是利用其温控功能),让我们建库后的样本在高温下解链然后与探针特异性结合,(探针是N多种混合物,其中有时包括某一片段的互补序列)经过一步退火加延伸,我们就得到一条被探针特异性结合的DNA链。当然,这个体系现在的成分相对复杂,包括各种保护试剂,扩增所需材料,以及大部分没有被抓取到的DNA片段,所以在这一步之后我们要进行纯化,我们用捕获磁珠(这些大小均一的超顺磁微珠直径 2.8 µm,表面有共价偶联的单层而非多层重组链霉亲和素。这使绝大多数生物素结合位点在空间上不仅可结合游离的生物素,还可结合生物素化的配体/靶标。它们是亲水性的,带负电,表现出快速液相反应动力学特性。其特异性、确定的表面可实现高效捕获、分离与下游处理)去捕获我们的探针,(这里用到的原理是链霉亲和素与生物素的特异性结合,与常规纯化磁珠的抓取相比具有更高的特异性,且没被探针特异性结合的DNA片段在这步虽然会与磁珠结合,但在后续的环节中依旧会被洗脱掉)这一步就是我们所说的“捕获”,经过捕获之后,我们需要洗掉杂质,我们可以认为所有没能被捕获磁珠捕获到的物质成分均是杂质,这里我们是没有办法一步洗去所有的杂质的,所以我们可能会用到两种或三种洗液,同时被洗脱掉的还有没被探针特异性结合到的DNA片段,洗脱时我们要严格控制好温度,以保证洗脱的效率,然后我们得到的就是纯度较高的待测序片段了,考虑到前面实验的损耗,我们在这里需要进行PCR扩增,让我们的待测序片段具有一个较高的浓度,我们把PCR循环结束之后的样本进行纯化(在上述PCR过程中,磁珠已经失去了对DNA的捕获能力,我们在PCR结束后直接利用磁力架将体系与磁珠分离,这时我们的DNA片段就已经全部溶解在体系里了,这时我们的体系中存在我们扩增后的片段和大量如引物底物酶这样的物质,我们需要将DNA片段与这些杂质分离),即:使用与之前建库环节应用到的原理相同的磁珠去纯化我们的DNA样本,然后用水将DNA溶解并进行浓度测定,完质控之后,如果能够得到我们满意的结果,就进入到后续的测序环节了。
注:华大平台的建库的方式与我们所熟知ILLUMINA 平台建库存在差异,以往我们会在文库双端加index,因为在改变链的读取方向时我们的片段会在流动池里乱跑,而华大平台是把我们要测序的片段做成DNB,然后把DNB固定在每一个孔位里(理论上我们的DNB的尺寸略大于每个孔位,然而实际情况是会有偏差的,这个偏差主要来源于我们每个DNA片段的初始长度不同,在N次扩增后,这个差距会被放大。)所以我们在正向读取时得知样本来源后,不需要在反向读取时再次确认这和样本的来源,我们在添加barcode(由于测序仪器的测序能力远大于测试样本序列量,为避兔仪器浪费,因此一个lane同时测定多个样品成为很自然的思路。然面为了区分多种样品的序列,就必须要给不同样品加上特定的“标签”,从而可以在后续数据分析时将不同样品数据分开,而这个“标签”就是barcode.)的过程中不需要考虑双端index的事情,但我们依旧需要在双端添加测序引物,以保证双端测序的顺利进行,同时我们还需要在barcode前端添加引物,以便在正向读取时确定barcode并确定我们的样本来源。到了后面的测序环节,在流动池中酸性环境和表面活化剂的辅助下,通过正负电荷的相互作用,DNB被加载到带有正电荷的活化位点并固定,就可以进行测序了。
4.接下来是测序环节,ILLUMINA 平台的测序原理简单来说就是桥式PCR+4色荧光可逆终止+激光扫描成像。即桥式PCR扩增技术,添加有叠氮基团和不同荧光标记的DNTP终止反应,用荧光信号收集系统去记录荧光信号。接下来我们介绍ILLUMINA 平台的文库扩增方式和测序方式:我们这里应用的扩增方式为桥式PCR,在之前我们提到,建库过程中我们在DNA链的两端加入了能够与流动池上的核苷酸链链互补的核苷酸序列,在桥式PCR这一环节中这些小核苷酸链就发挥作用了,我们把我们混样之后的样本加入到我们流动池的lane中,需要注意的是虽然不同的样本可以混入到相同的lane里,但我们不能把index相同的样本加到一条lane里,否则我们将无法区分这两个样本的数据且这些数据还会相互影响。(Flow cell是有 2 个或 8 个 lane的玻璃板,每个 lane 可以测一个样本或者多样本的混合物,且随机布满了能够与文库两端接头分别互补配对或一致的寡核苷酸。一个 lane 包含两列,每一列有 60 个 tile,每个 tile 会种下不同的 cluster,每个 tile 在一次循环中会拍照 4 次。)这些小DNA片段在加入到流动池中后便能够被固定在流动池中了,接下来的反应均是通过调控测序试剂在流动池中的流动来进行。这里我们需要了解到我们的样本的状态,这样更便于我们对接下来流程的理解,我们首先对样本进行混样,对数据量相近且index不同的样本,我们认为是能够加入到flow cell的同一lane中的,且样本在上机测序前进行了稀释(这与我们之前在建库和捕获两次扩增并不矛盾),我们可以认为我们的同一样本均匀的分散在了flow cell的各部分,(之所以需要数据量相近,是为了避免在此环节中数据量大的样本抢占数据量小的样本的位置,以至于某些样本的测序质量不佳,我们普遍认为测序质量与诸多影响因素有关,但测序深度仅与片段长度有关)当然,这些小DNA片段与lane中寡核苷酸链的连接方式不同时包括正向与反向,我们拿一个样本举例,某一样本正向连接后P7与lane上的寡核苷酸链结合,上端依旧保持着单链的状态,然后我们加入DNA双链合成所需的材料,在适应条件下合成为DNA双链,然后我们向flow cell中加入碱性物质,让我们刚刚合成的双链解开,然后我们的模板连在这个时候就随着碱液被冲出我们的流动池了,单链DNA弯曲并于另一种寡核苷酸链结合,这时我们再次加入合成所需材料并用碱液冲洗,由于此时的DNA两条链都有一端与flow cell结合,所以这步只会造成解链我们合成的DNA链不再会被冲出flow cell了,我们将这样的操作看做一个循环,得到了一个原链的互补链,我们在N个循环后就得到了2(N-1)个片段,这里我们并没有考虑互补链的信息,因为在不同目的的捕获中我们主观选择保留或不保留互补链。关于循环数,我们普遍认为在25到28次之间,但实际的情况会因为片段本身原因以及仪器的更新发生调整,在N个循环结束之后,我们得到的结果为最初样本的互补链在flow cell里分散存在,形成类似于菌落般的结构:这不是没有理由的,一方面我们需要让信号足够强,即DNA簇足够大;另一方面我们要尽可能消除可能会影响后续测序的因素。接下来我们需要将所有反向DNA链切掉,因为双端接头的不同,且这一环节反向链均为DNA原链而并非互补链,所以我们不要担心在切除反向链的过程中原链的互补链受到影响。接下来就可以开始测序了,ILLUMINA 平台采用的是荧光定量PCR,边合成边测序的方法(华大平台应用的原理与之相同,但有自己的优缺点,如过程更加复杂,但读段更长),我们在体系中加入引物底物酶这些常规成分,但是这一环节的底物与以往不同的是它的3’位置连接有叠氮基团,使得在引物和酶的作用下只有一个NTP可以连接在DNA链上,然后我们洗掉体系中未被用到的有荧光标记的DNTP来避免干扰,此时荧光信号收集系统可以记录NTP上的荧光标记,接下来用巯基试剂去掉3’位阻断的叠氮基团,用TCEP去掉荧光基团,进入下一个碱基的测序反应,(我们需要知到为什么测序长度是会受到限制的:首先我们的荧光基团是通过一些强化学键连接在dNTP上的,我们在去除荧光基团的过程中不会连同这些强化学键一起去除,这会导致我们新合成的链上存在这各种不稳定的分子间作用力,会影响到我们DNTP的后续连接,其次我们的叠氮基团并不稳定,在逐个添加碱基的过程中会存在上步添加的碱基的叠氮基团未被洗掉,或者本次添加的碱基上没有叠氮基团而一次性添加了两个碱基的情况,这些情况均为偶然现象,但我们需要大量的DNA链发出相同荧光以保证信号足够强且可以被记录,在偶然现象积累到一定数量时我们的荧光信号会受到干扰,这样的情况下我们没办法确保我们的测序结果的准确性,而以上两种情况均会在读长增加的情况下累积,这也是二代测序读长有限和双端测序的原因)在N个碱基被测序之后,我们读取index片段来确定这个样本。(这里强调一点,我们读取的index是与正向链末端连接的index,因为上端index前没有引物,我们没办法读取到)接下来是反向测序,因为上述原因,我们如果只进行单向测序并全部测完,那么末端得到的测序结果必然是混乱的,且这不是我们单纯推样本基数能够解决的问题,我们将之前的循环再进行一次,就可以得到需要测序的反向链的互补链了,然后我们可以通过对计算机数据的分析,得到我们这条链的信息,然后再洗去DNTP,加入读取index2的酶,读取我们DNA片段上的index2。用上述的边合成边测序的方法测出反向链的部分序列,然后通过将荧光信号收集系统将收集到的信号按时间顺序进行叠加,在通过对应index识别,就能得到完整读段的碱基序列了。(这里补充说明;我们双端测序所得到的两部分读段在组合后将和人源基因组进行对比,在经过生信分析后的,将整个片段的信息解析出来)通过对这些数据的分析,我们可以得到包括以下方面的内容:
1.基因结构变异,如SNV(单个或多个碱基突变)中的同意突变(单个碱基改变但是不影响蛋白质的翻译),错意突变(单个碱基突变并影响蛋白质的翻译,即某一氨基酸被替换并在一定程度上影响蛋白质的结构功能),移码突变(插入或缺失碱基导致该区段外显子转录全部发生错位,这是影响较大的一种突变),提前终止(某一碱基被替换致使该密码子成为终止子,提前结束转录翻译,也被叫做无义突变),延长(终止子突变),无法起始(起始密码子突变),剪切位点异常(区别内含子与外显子的部分发生突变,对转录翻译的影响主要体现在一整段外显子缺失);CNV(基因拷贝过程中的重复或缺失:单一或两条染色体重复或缺失);Fusions(基因融合)
※基因的点突变或者重组会导致肿瘤携带有异常的转录因子,其中由重组基因产生的具有促癌特征的融合转录因子又被称为肿瘤嵌合因子(OCTF)
2.NCCN指南以及建议的基因检测
3.MRD(微小残留病灶)
4.免疫检查点,如TMB(肿瘤分期),MSI(微卫星不稳定,即短重复序列在转录中出现的SNV),HLA(临床肿瘤分型),PD-L1(细胞程序性死亡受体),原癌基因突变(存在于正常细胞,对细胞增生和分化进行生理性调节的基因,其编码的产物往往是对正常细胞生长十分重要的细胞因子。原癌基因可在多种因素的作用下被激活成癌基因,能够促进细胞自主生长,发生恶性转化。癌基因编码的蛋白谓癌蛋白,可持续转化靶细胞,使得靶细胞自主生长,不再需要生长因子或其他刺激信号,并具有逃避细胞周期检查点的能力。)抑癌基因突变(其编码的产物组成一个网络,能监测有害的变化,并在细胞生长、増殖调控中发挥重要的负性调节作用。肿瘤抑制基因的产物可作为转录因子、细胞周期抑制因子、信号转导分子等发挥作用)
5.临床意义未明或潜在的用药位点(是否可以使用PARP抑制剂)
总结:高通量测序拥有速度快,成本低,通量高的优点,但因为在读长过程中,读长越长,累积的错误越多,后端的信号越乱,所以在读长这一块存在着限制。一代测序在读长方面通常可以达到二代测序的几十倍,且在这样的情况下错误率依旧可以控制在万分之一,所以目前在单基因未知变异检测这个层面上,一代测序依旧拥有较高的优先级。全外显子测序在基因组跳跃突变的检测中并不能发挥很好效果,但CDNA测序可以帮助我们解决这个问题,我们读取目标基因的上一个基因,然后根据测序结果观察下一个基因是否为我们预计的基因,就能够直接判断出是否为基因组跳跃突变。
(本文在原“二代测序-全基因组测序”文章的基础上进行了更改,修正了部分错误,有关于华大平台的测序理论会尽快更新!新人作者创作能力有限,若有错误烦请各位斧正!)