生物信息分析的前提是获得了测序数据,关于测序原始数据也涉及非常多知识及细节,如果明白了测序原理及测序数据产生的过程,在理解关于原始数据的各个问题上也比较容易。
回顾测序历史,目前已经形成了三种测序方法,从上个世纪70年代的Sanger测序到90年代的二代测序,再到长度更长的三代测序,都为快速、高效获得基因序列提供了技术支持。
Sanger测序
1970s年桑格开发的能完成最长1000bp序列的双脱氧终止反应,因为该技术用于高达99.999%的测序准确率,而被用于人类基因组计划完成基因组的测序(改良的桑格法)。但是其因为通量低(一次只能测一条序列)、成本高,而不适用于大基因组的测序。
桑格法的主要思想是,构建4个反应体系,(A, T, G, C四种碱基),分别加入引物、DNA聚合酶、四种dNTP、一定比例的ddNTP(带有放射性标记)。由于ddNTP的加入,导致互补链的合成被终止,当然ddNTP的结合是随机性的,但是在一定时间内,ddNTP会结合完所有的位点。虽然会有ddNTP和dNTP结合在同一个位点,但是在凝胶电泳和放射自显影试验中,只有ddNTP会被检测到,并通过碱基互补推算出待测序列。
【PCR实验是在1983年出现的,那么如果需要建立这四个反映体系,那不是需要多条模板链,那这么多的模板链除了扩增还有什么方法?或者说,如何获得这些模板链?】
Illumina 二代测序
二代测序有不同的平台,包括Roche 454测序仪,Illumina Solex/Hiseq 和ABI SOLID,其中以Illumina Hiseq市场份额较多(75%)。其开发的PE 双端测序方法的主要特点是,借助桥式PCR扩增,实现了通量上的极大提高。
一些必须了解的名词
- flowcell: 测序反应的载体/容器,1个flowcell有8个lane,每个lane包含两列(swath),每一列有60个tile,每个tile会种下不同的cluster,每个tile在一次循环中会拍照4次(每个碱基一次)
- lane: 测序反应的平行泳道,试剂添加、洗脱等过程的发生位置
- tile: 每次荧光扫描的位置,肉眼是看不到的
- 双端测序: 可能序列比较长有四五百bp,两边各测120-150bp
- junction: 双端测序中间一些没有测到的区域
构建文库
超声波将DNA分子打断成300-800bp长序列片段(人类基因组打成300-500bp),用酶补平为平末端,然后3‘端加一个A碱基(因为接头的3‘端有一个突出的T),再在两端加上互补配对的adapter,再通过PCR扩增达到一定浓度,构成单链DNA文库。
接头主要有两个作用,1. 实现桥式扩增,高效;2. 可以实现双端测序
桥式PCR
进行桥式PCR的关键在于待测序列5’和3’接头设计及flowcell 的lane的与接头互补的接头。桥式PCR的过程可以通过扩增正义链步骤理解,主要包括以下几个步骤:
- 对模板链(p5-p7)进行扩增,获得双链互补链(p5'-p7')
- 洗脱模板链(强碱试剂作用下两条链被分开,由于模版链没有附着在lane上,模版链被冲走,但是互补链依然稳稳固定在lane上)
- 形成桥式(互补链p7' 与lane上 p7互补,并通过扩增获得正义链p7-p5,与模板链一致)
- 循环,获得一群序列完全相同的cluster,目的在于实现放大单一碱基的信号强度,满足后期测序需求
- 解链。桥式PCR完成后,形成了很多的桥形的互补双链,再次强碱解链。利用一种酶--甲酰胺基嘧啶糖苷酶(Fpg)选择性的切掉lane 上p5‘ 连接的链,只留下了与lane p7连接的链即Forward Strand
总之,因为接头的设计,及互补配对的特性,使得最后能只保留正义链,进行测序。
几点注意:
- lane与lane之间一般不会相互影响,也就是说一般不会出现lane1固定的DNA又与lane2结合。
- lane上随机分布两种接头,p5’(与P5互补),P7(与P7'互补)。
待测序列自带了p5接头和p7接头;- 序列只能一开始是利用p5接头互补,因为p7接头和lane是一样的嘛
测序
测序的原理是,边合成边测序,通过每次加入一个荧光碱基,并检测荧光信号,然后立即对其淬灭,接下来完成下一轮的碱基信号探测。双端测序的顺序是,先对正义链测序,然后index测序,最后反义链测序。
正义链每一轮测序步骤:
- 引物结合到p5端
- 聚合酶作用完成一个碱基合成(一种特殊的dNTP【它的3‘ 羟基被叠氮基团替代,因此每次只能添加一个dNTP;还含有荧光基团,能激发不同颜色】)
- 加入激发荧光缓冲液,用激光激发荧光信号(在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉)
这一个循环就能测定flowcell上成千上万的cluster,这就实现了高通量
- 下一轮测序。加入化学试剂淬灭荧光信号并使dNTP 3’ 叠氮基团变成羟基,这样能继续向下进行再加一个,并且保证这个不再发出荧光
在所有正义链完成测序后,合成称为被洗脱,然后开始index测序检测。首先对通过index1的引物结合位点完成index1完成测序,并洗脱合成产物,然后再通过正义链的p5与lane上的p5'互补,完成index2的测序,并洗脱产物。
洗脱掉index2 产物后,还是一个桥式扩增,得到双链,再变性得到原始Forward strand 和 新的Reverse Strand, 除去测完的Forward strand。然后和测Forward一样,也是先连接primer,只是连接的位点是Primer Binding Site2,测完后得到reverse strand序列。
数据产生
从荧光信号的产生到碱基序列的识别这一过程,主要包括图象校正(即空间校正)、cluster识别、荧光校正(即光学校正)、phasing/prephasing(即化学校正)、碱基识别、PF(Illumina默认的数据过滤算法Pass Filtering)、质量评估等7个步骤
其中相机识别碱基的工作原理:利用了CCD相机(1)对每一个簇(cluster)进行识别,确定其坐标;(2)提取每个簇分别在A、G、C、T四个波长的信号强度值。另外拍照过程相当耗时,一次循环所产生的信号需要40分钟左右才能拍照收集完毕。使用相机的扫描功能会更快一些。
总之,根据设计的接头以及引物结合位点,一次完成正义链、index及反义链的测序。当然,获得测序数据后的质控又涉及其他知识,关于质控结果的解释也需要认真学习。