测序知识学习
一二三代测序
测序技术的发展史
第一代测序
在1977年,Sanger等提出了经典的双脱氧核苷酸末端终止测序法。该方法的原理是:由于ddNTP的2´和3´都不含羟基,在DNA合成反应中不能形成磷酸二酯键,因此可以被用来中断DNA合成反应。在4个DNA合成反应体系中分别加入一定比例的带有放射性同位素标记的某种ddNTP,通过凝胶电泳和放射自显影后,可以根据电泳带的位置确定待测分子的DNA序列。同一年,Gilbert等提出了化学降解法。该方法与Sanger法类似,都是先得到随机长度的DNA链,再通过电泳方法读出序列。二者的不同之处在于,Gilbert法是先用特定的化学试剂标记碱基再用化学方法打断待测序列,而Sanger法是通过ddNTP随机中断合成待测序列。
此后,在Sanger法的基础上,80年代中期出现了以荧光标记代替放射性同位素标记、以荧光信号接收器和计算机信号分析系统代替放射性自显影的自动测序仪。另外,90年代中期出现的毛细管电泳技术使得测序的通量大为提高。
除此之外,这一时期还出现了一些其他的测序方法,如焦磷酸测序法(pyro sequencing)、连接酶测序法(sequencing by ligation, SBL)、杂交测序法(sequencing by hybridization,SBH)等。其中焦磷酸测序法即为后来Roche公司454技术使用的测序方法,连接酶测序法即为后来ABI公司SOLiD技术使用的测序方法。
第二代测序
2007 年Roche公司推出了Genome SeqencerFLX(GS-FLX)测序平台,建立在454焦磷酸测序原理上的一种高通量测序。比起其它二代测序平台,具有较长的读长。目前GS FLX测序系统样品序列片段读长已超过400bp,而最新的454 GS-FLX+System最长读长能达到1kb,平均读长700bp,而且不需要荧光标记的引物或核酸探针,也不需要进行电泳,具有分析结果准确、快速、灵敏度较高等优点。然而,454平台的测序成本比其他新一代测序平台高,并且与其他第二代测序平台相比,无法准确测量同聚物的长度会导致结果不准确,但该技术在基因组从头测序、转录组分析等领域仍有着广泛的应用。
2006 年,Illumina公司收购Solexa公司,获得新一代高通量测序技术并把该技术发展成为市场上的主流技术,目前提供HiSeq4000、HiSeq3000、HiSeq2000、HiSeq2500/1500、Genome AnalyzerIIx、MiSeq等测序系统。Hiseq是一种基于单分子簇的边合成边测序技术,基于专有的可逆终止化学反应原理,实现自动化样本制备和大规模平行测序,其文库片段的扩增是通过桥式PCR来实现。Hiseq2500测序仪虽然具有高准确性,高通量,高灵敏度,和低运行成本等突出优势,但是,基于DNA模板扩增,其在组装高GC含量基因组时尤其受限,最重要是较短的测序读长不利于组装基因组。目前HiSeq3000/4000测序仪是基于HiSeq2500系统流动槽技术发明的对人类基因组学测序有很大益处的世界最先进的高通量测序平台。双流动槽的HiSeq4000系统具有更长的读长,更高的通量和更短的测序时间等优点而应用广泛。而单流动槽的HiSeq3000系统则享有同样的低价格和快速运行时间。基因组重测序、转录组测序和外显子等方面的应用依然广泛。
MiSeq测序仪是小型测序平台,以边合成边测序技术为基础,通过可逆终止方法对数百万个片段同时进行大规模平行测序,具有测序速度快,数据准确率高的优点,可实现300bp×2的测序长度,主要在微生物多样性分析、宏基因组测序、转录组de novo测序、微生物基因组测序、小RNA测序、表达谱、ChIP-Seq中的应用较多。目前,Illumina公司2014年推出的新一代Hiseq X Ten测序仪已实现1000 美元完成一个人类基因组的目标。
ABI公司则主要是SOLiD 3和SOLiD 4两个测序平台,与Solexa的合成测序对比,SOLiD 测序技术拥有第二代测序反应中最高的通量,是边合成边测序过程中采用连接反应而不是聚合反应。其基本原理是以四色荧光标记的寡核苷酸进行多次连接合成。
SOLiD 测序技术的独特点在于“双碱基编码”的应用,使每个碱基被阅读两次,校对原始数据而避免错误,以此保证SOLiD系统原始碱基数据的准确率大于99.94%。但其存在的不足是在荧光解码阶段,鉴于其是双碱基确定一个荧光信号,因而一旦发生错误就容易产生连锁的解码错误。目前该技术多应用在基因组重测序、基因型分析、基因表达分析、小分子RNA、表观组学测序(染色质免疫共沉淀和DNA甲基化)等领域。
第二代测序技术的突出点是以高通量、低成本为主,然而,第二代测序的较短读长不利于生物信息学分析,而且,扩增PCR前后的DNA分子片段数目比例有偏差,这对基因表达、尤其是对大量表达的基因影响会更大。这些缺点在一定程度上制约了第二代测序技术的应用和发展,推进第三代单分子测序技术应运而生。
第三代测序
测序技术在近两三年中又有新的里程碑。以PacBio公司的SMRT和Oxford Nanopore Technologies纳米孔单分子测序技术,被称之为第三代测序技术。与前两代相比,他们最大的特点就是单分子测序,测序过程无需进行PCR扩增。
其中PacBio SMRT技术其实也应用了边合成边测序的思想5,并以SMRT芯片为测序载体。基本原理是: DNA聚合酶和模板结合,4色荧光标记 4 种碱基(即是dNTP),在碱基配对阶段,不同碱基的加入,会发出不同光,根据光的波长与峰值可判断进入的碱基类型。同时这个 DNA 聚合酶是实现超长读长的关键之一,读长主要跟酶的活性保持有关,它主要受激光对其造成的损伤所影响。PacBio SMRT技术的一个关键是怎样将反应信号与周围游离碱基的强大荧光背景区别出来。他们利用的是ZMW(零模波导孔)原理:如同微波炉壁上可看到的很多密集小孔。小孔直径有考究,如果直径大于微波波长,能量就会在衍射效应的作用下穿透面板而泄露出来,从而与周围小孔相互干扰。如果孔径小于波长,能量不会辐射到周围,而是保持直线状态(光衍射的原理),从而可起保护作用。同理,在一个反应管(SMRTCell:单分子实时反应孔)中有许多这样的圆形纳米小孔, 即 ZMW(零模波导孔),外径 100多纳米,比检测激光波长小(数百纳米),激光从底部打上去后不能穿透小孔进入上方溶液区,能量被限制在一个小范围(体积20X 10-21 L)里,正好足够覆盖需要检测的部分,使得信号仅来自这个小反应区域,孔外过多游离核苷酸单体依然留在黑暗中,从而实现将背景降到最低。另外,可以通过检测相邻两个碱基之间的测序时间,来检测一些碱基修饰情况,既如果碱基存在修饰,则通过聚合酶时的速度会减慢,相邻两峰之间的距离增大,可以通过这个来之间检测甲基化等信息。SMRT技术的测序速度很快,每秒约10个dNTP。但是,同时其测序错误率比较高(这几乎是目前单分子测序技术的通病),达到15%,但好在它的出错是随机的,并不会像第二代测序技术那样存在测序错误的偏向,因而可以通过多次测序来进行有效的纠错。
Oxford Nanopore Technologies公司所开发的纳米单分子测序技术与以往的测序技术皆不同,它是基于电信号而不是光信号的测序技术5。该技术的关键之一是,他们设计了一种特殊的纳米孔,孔内共价结合有分子接头。当DNA碱基通过纳米孔时,它们使电荷发生变化,从而短暂地影响流过纳米孔的电流强度(每种碱基所影响的电流变化幅度是不同的),灵敏的电子设备检测到这些变化从而鉴定所通过的碱基。
该公司在去年基因组生物学技术进展年会(AGBT)上推出第一款商业化的纳米孔测序仪,引起了科学界的极大关注。纳米孔测序(和其他第三代测序技术)有望解决目前测序平台的不足,纳米孔测序的主要特点是:读长很长,大约在几十kb,甚至100 kb;错误率目前介于1%至4%,且是随机错误,而不是聚集在读取的两端;数据可实时读取;通量很高(30x人类基因组有望在一天内完成);起始DNA在测序过程中不被破坏;以及样品制备简单又便宜。理论上,它也能直接测序RNA。
纳米孔单分子测序计算还有另一大特点,它能够直接读取出甲基化的胞嘧啶,而不必像传统方法那样对基因组进行bisulfite处理。这对于在基因组水平直接研究表观遗传相关现象有极大的帮助。并且改方法的测序准确性可达99.8%,而且一旦发现测序错误也能较容易地进行纠正。但目前似乎还没有应用该技术的相关报道。
目前还有一种基于半导体芯片的新一代革命性测序技术——Ion Torrent6。该技术使用了一种布满小孔的高密度半导体芯片, 一个小孔就是一个测序反应池。当DNA聚合酶把核苷酸聚合到延伸中的DNA链上时,会释放出一个氢离子,反应池中的PH发生改变,位于池下的离子感受器感受到H+离子信号,H+离子信号再直接转化为数字信号,从而读出DNA序列。这一技术的发明人同时也是454测序技术的发明人之一——Jonathan Rothberg,它的文库和样本制备跟454技术很像,甚至可以说就是454的翻版,只是测序过程中不是通过检测焦磷酸荧光显色,而是通过检测H+信号的变化来获得序列碱基信息。Ion Torrent相比于其他测序技术来说,不需要昂贵的物理成像等设备,因此,成本相对来说会低,体积也会比较小,同时操作也要更为简单,速度也相当快速,除了2天文库制作时间,整个上机测序可在2-3.5小时内完成,不过整个芯片的通量并不高,目前是10G左右,但非常适合小基因组和外显子验证的测序。
在网上看到一段话形象描述三代测序的不同,原话是这样的
用一个简单的比喻来解释这几代技术。
任务:做1000张试卷。
一代测序:一个人一次只能做50张试卷,所以他无法做完这1000张。
二代测序:有500个人,每个人一次只能做10张试卷,且每个人随机做这1000张中的10张试卷,最后汇总这500个人做的试卷,去除重复做的把不同的统一起来,这样可以最大限度得完成1000张试卷。
三代测序:有30人,每个人一次能做100张试卷,之后的和二代一样,汇总结果。
这样是不是相对形象了一点(纯属帮助理解)。
最后来张网上的图总结
二代测序大体流程
由于Illumina公司的Solexa和Hiseq应该说是目前全球使用量最大的第二代测序机器,所以只记录Solexa的原理。
(1)DNA待测文库构建
利用超声波把待测的DNA样本打断成小片段,目前除了组装之外和一些其他的特殊要求之外,主要是打断成200-500bp长的序列片段,并在这些小片段的两端添加上不同的接头,构建出单链DNA文库。
(2)Flowcell
Flowcell是用于吸附流动DNA片段的槽道,当文库建好后,这些文库中的DNA在通过flowcell的时候会随机附着在flowcell表面的channel上。每个Flowcell有8个channel,每个channel的表面都附有很多接头,这些接头能和建库过程中加在DNA片段两端的接头相互配对(这就是为什么flowcell能吸附建库后的DNA的原因),并能支持DNA在其表面进行桥式PCR的扩增。
(3)桥式PCR扩增与变性
桥式PCR以Flowcell表面所固定的接头为模板,进行桥形扩增,如图4.a所示。经过不断的扩增和变性循环,最终每个DNA片段都将在各自的位置上集中成束,每一个束都含有单个DNA模板的很多分拷贝,进行这一过程的目的在于实现将碱基的信号强度放大,以达到测序所需的信号要求。
(4)测序
测序方法采用边合成边测序的方法。向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4中dNTP(如同Sanger测序法)。这些dNTP的3’-OH被化学方法所保护,因而每次只能添加一个dNTP。在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除dNTP 3’-OH保护基团,以便能进行下一轮的测序反应。Illumina的这种测序技术每次只添加一个dNTP的特点能够很好的地解决同聚物长度的准确测量问题,它的主要测序错误来源是碱基的替换,目前它的测序错误率在1%-1.5%之间,测序周期以人类基因组重测序为例,30x测序深度大约为1周。
组学知识
1.基因组学(核酸序列分析)
(1)全基因组测序(WGS)
(2)全外显子组测序(WES)
(3)简化基因组测序(RRGS)
①RAD-Seq
②GBS
③2bRAD
④ddGBS(也就是ddRAD)
作用:
(1)基因组作图(遗传图谱、物理图谱、转录本图谱)
(2)核苷酸序列分析
(3)基因定位
(4)基因功能分析
其它:
以全基因组测序为目标的结构基因组学
以基因功能鉴定为目标的功能基因组学
----------------生信星球
2.转录组学(基因表达分析)
(1)mRNA-Seq
(2)IncRNA-Seq(长链非编码RNA)
(3)sRNA-Seq(主要是miRNA-Seq)
作用:
(1)获得物种或者组织的转录本信息
(2)得到转录本上基因的相关信息,如基因结构功能等
(3)发现新的基因
(4)基因结构优化
(5)发现可变剪切
(6)发现基因融合
(7)基因表达差异分析
--------------生信星球
3.蛋白质组学
(1)蛋白质组数据处理、蛋白及其修饰鉴定
(2)构建蛋白质数据库、相关软件的开发和应用
(3)蛋白质结构功能预测
(4)蛋白质连锁图
---------------生信星球
4.代谢组学
(1)代谢物指纹分析
(2)代谢轮廓分析
----------------生信星球
通过一晚上的学习,包括几篇文章以及Illumina公司官方视频和“陈巍学基因”视频,大概清楚了测序的原理及实验过程。
这几天在豆豆和花花的带领下,收获颇多,感觉自身的知识提升了不少,在这里感谢二位幸苦的付出。以后要学的东西还很多,希望这个头开得有效果,也希望自己能克服懒惰的毛病,坚持学下去。