参考
illumina测序-过程
illumina原理-陈巍
第3题,illumina测序技术细节探究I
目前我们最常使用的就是Illumina公司的测序技术,Illumina公司的测序技术最明显的几个特点是:价格低,通量高,测序读长短。那么我们今天的问题,就是围绕Illumina测序技术的细节来提问的。
illumina测序的步骤
样本准备;cluster生成;测序和数据分析
part1 准备样品Sample Prep
所有制备方法都在DNA片段的末端添加接头adapter
通过循环扩增的减少,额外的motif被引入
例如引入的测序结合位点
还有标签和 与Flowcell(流动池)寡核苷酸互补的区域
part2 成簇 cluster生成
Flowcell 是带有流通槽的玻璃滑块
每个流通槽Lane上固定了lawn
lawn由两种不同的oligos寡聚核苷酸引物组成
待测序的寡核苷酸片段和在flowcell上的两种引物之一结合,引物和片段链fragment strands的街头区域互补
聚合酶生成杂交片段的互补片段
双链分子变性,原始模版被洗去
链通过桥式扩增进行克隆扩增;此过程中strand折叠,并且接头部分和flowcell上的另外一种类型的寡聚物杂交
聚合酶合成互补链,形成双链桥
该桥变性后导致分子的2个单链拷贝
然后被固定在flowcell
随后该过程反复进行重复
同时生成数百万个簇cluster,所有片段被克隆扩增
桥式扩增以后,反向链被切断洗去
仅仅留下正向链
且3’端被封锁以防非特异性结合
测序从第一个测序引物的延伸开始
先生成第一个读段read,四个带不同荧光的碱基配对,直到配对正确
荧光标记的核苷酸竞争加入生长链
在添加每种核苷酸nucleotide之后,簇cluster被光源激发,这个专门的过程叫做sequence-by-synthesis
所有相同的strandsare线同时读取
这是大规模的并行过程,
数以千计的簇被测序
该图像代表flowcell的一小部分
在结束第一次荧光信号的判断以后,这段产物被洗去
在该步骤中,索引1的读段引物read primer,被引入并与模板杂交
类似于第一次的read生成,新的read产生了
在索引读段index read结束后,该段产物被洗掉,模板3端去保护
模版重新折叠
并结合flowcell的第二个寡核苷酸
索引2 index2和index1 索引1以相同的方式读取
聚合酶延伸第二个flowcell寡核苷酸,再次形成一个双链桥
然后将该双链DNA线性化
并将3端封锁
原始正项链被切除并洗去,只留下反向链
Read2第二次判读开始于读段read2测序引物的引入
和Read1一样,测序步骤从形成primer开始被重复,直到达到预期的read长度
然后将read2 product读段2产物洗走
这整个过程产生了数百万个读段,代表所有的片段
来自样品库pool sample libraries的序列被分离
因为在样品准备过程中用了不同的indices引物(我的理解是,样品库的DNA被引入了不同的引物扩增)
对于一个sample而言,reads with similiar stretches of base calls are locally clustered,意思是有相似碱基序列的reads被聚类
正向和反向读段read被配对生成连续序列
这些连续序列与参考基因组对齐,用于突变识别
终端配对信息被用于确定有歧义的对齐(不太理解)
1. 什么是Illumina测序adapter?同一批上机的adapter序列一样吗?它的作用是什么?
adapter的中文意思为适配器或者接口,在illumina测序过程中关键一步是将文库片段固定在flowcell上,然后通过桥式PCR将片段扩增,在被打断成300~500bp的长度的片段末端被补平后adapter将被添加到片段两端,一方面用于将片段固定在flowcell上,同时adaptor中还包含桥式PCR所需要的引物
2. 一个完整的Illumina测序过程是那几步?
完整的测序过程仅包含两步,第一是桥式PCR扩增,第二是以4色荧光可逆终止反应为核心技术的测序;
3. 什么是桥式PCR技术?为什么要进行桥式PCR?
加上adapter之后的DNA样品与flowcell上固定的oligo(寡链核苷酸)匹配后就被固定在flowcell上,通过桥式PCR进行扩增成cluster,便于后面的荧光测序,主要步骤为:
- 进行第一轮扩增,将序列补成双链。加入NaOH强碱性溶液破坏DNA的双链,并洗脱。由于最开始的序列是使用化学键连接的,所以不会被洗。
- 加入缓冲溶液,这时候序列自由端的部分就会和旁边的oligo进行匹配
- 进行一轮PCR,在PCR的过程中,序列是弯成桥状,所以叫桥式PCR,一轮桥式PCR可以使得序列扩增1倍
- 如此循环下去,就会得到一个具有完全相同序列的cluster
4. 我们都说,测序结果会包含index,那么index是什么?有什么作用?
- 一条lane能测得的数据量在30G左右,而一个样品的测序量一般不会这么大,所以在建库的时候对每一种样品的接头加上不同的标签序列,这个标签就叫做Index,有了index就可以同时在一个lane中测多种数据了,后期可以根据index将数据分开;
5. 我们所说的flowcell,lane,tile都是什么意思?
-
flowcell 是指Illumina测序时,测序反应发生的位置,1个flowcell含有8条lane通道,通道内表面有专门的化学修饰
- lane 每一个flowcell上都有8条泳道,用于测序反应,可以添加试剂,洗脱等等;每条通道内表面有化学修饰,主要是两种DNA引物,把它(2中DNA引物)种在玻璃的表面,和DNA文库的接头序列是相互互补的,这两种引物是通过共价键连到flowcell上去的,之所以要用共价键连接是因为接下来有大量的液体要流过这个flowcell,只有有共价键连接的这些DNA,才不会被冲掉,这就是flowcell
- tile 每一次测序荧光扫描的最小单位
Illumina测序结果质量表示方法采用的是Phred33还是Phred64?
- 最新的测序质量结果一般都为Phred33,但是早期的测序数据可能出现Phred64。
illumina的流程
6.DNA文库及其制作
所谓的DNA文库实际上是许多个DNA的片段,在两头接上了特定的DNA接头形成的DNA混合物
文库有两个特点:
1.第一个特点,是当中这一段插入的DNA它的序列是各种各样的(??)
2.第二个特点,它两头的接头序列是已知的,而且是人工特地加上去的
文库的制作:
首先是把基因组DNA,用超声波打断,打断以后两头用酶补平
再用Klenow酶在3端加上一个A碱基
然后用连接酶把接头给连上去
连好了接头的DNA文库就被我们成为一个“文库” or “library”
7.做好library就要做桥式PCR了
简而言之,桥式PCR实际上是把文库种到芯片上去然后扩增的一个过程。
该过程首先是把文库加入芯片上去,因为文库两头的DNA序列,和芯片上的引物是互补的,所以就会产生互补杂交
再桥式PCR完成以后呢,要把合成的双链变成可以测序的单链,办法是通过一个化学反应,把一个引物上的一个特定的基团给切断掉,然后再用碱溶液来洗这个芯片,此时碱让DNA的双链解链
只留下那根 以共价键连在芯片上面的链
8.正式开始测序工作
接下来再加入中性溶液,然后在这个中性溶液中加入测序引物
测序时加入的最重要的有两样东西,
一是需要加入聚合酶,聚合酶就会选择哪一个dNTP是和原来位置上的那个碱基和互补的,根据互补原理把这个dNTP合成到新的这个链上去
二是带有荧光标记的dNTP,该dNTP的特点是--它的3’末端是被一个叠氮基堵住的,
因为这个dNTP的3端是被一个叠氮基团给堵住了,所以,它一个循环只能延长一个碱基
合成之后就停在那了,因为有叠氮基团阻止继续合成,合成以后呢就用水把多余的dNTP和酶给冲掉
冲掉以后就放到显微镜下去激光扫描
根据发出来的荧光判断它是哪个碱基
因为4种dNTP上面标的荧光素都不一样,那么根据红黄蓝绿它出来的颜色就可以倒推这个新合成上去的碱基是哪种碱基,因为新合成的碱基是和原来位置的碱基是互补的,所以又可以反过来推出模板上的碱基的种类,这一个循环完成以后呢,就加入一些化学试剂把叠氮基团和旁边标记的荧光基团给切掉,
切完了以后呢,3端的羟基就暴露出来了
再接下来呢,加入新的dNTP和新的酶,然后又延长一个碱基,新延长一个碱基之后呢,把多余的酶和dNTP冲掉,再进行一轮显微的激光扫描,再读一下这个碱基的种类
不断重复这个过程,可以重复上百次到几百次,重复这个过程上百趟就可以把这个序列的信息读出来了
9. 接下来要读index
什么是index呢,因为illumina的测序量很大,往往一个样本呢用不了几亿个DNA,所以科学家就想了一个办法。
什么办法呢?
就是在文库的接头上做了一些标记,那么对于每一个样本而言,它有一个特定的接头,每个接头里面呢有一段特定的序列,那么这段特定的序列我们就称为index,也有人把它叫做barcode,
表达的意思就是:这么一段特定的序列,标记了样本的来源
因为一个flowcell可以测几亿个DNA,通常是把不同处理条件下的样品的打断的RNA-sequences(reads,加index+barcode)的PCR样品同时加到一个flowcell上面测序,为了区分reads的来源,在adapter和insert之间加上特定的核苷酸序列barcode/index,就可以区分不同来源的reads。
加index通常用于区分不同处理组的样品,加barcode通常见于单细胞样品,用来区分reads由于PCR 引起的duplication造成的误差
那么怎么读这个index序列呢?
首先,先用碱把上面这根测完“read 1”的序列,把上面这根DNA链给解链掉
用中性液洗掉以后呢,用read2的测序引物,那么read2的测序引物结合的位点正好就是在这个index序列的旁边
接下来就是进行第二轮测序
一般来说是读6-8个碱基
那么把这6-8个碱基读下来呢,我们就可以知道这某一段具体的DNA它是来自于原始的哪个样本
10.双端测序
就是说,一根DNA链,除了从正向读一遍,还可以从DNA的负向再读一遍,那么这样的话一下子就把illumina测序的有效长度增加了一倍;
倒链的过程是这样,先让这个DNA先合成
合成出来的这根互补链,有了互补链以后呢
有了互补链以后呢用一个化学试剂,在原来这个链的根上切一下,那么原来这根模版链就掉了
剩下互补链,再接下来就进行第2端的测序;那么第2端测序的原理呢和第1端的测序原理是一样的;
原理就是加上“Read 3”这个引物,然后以此往下,一个一个碱基地往下读
那么最重要的事情是什么呢?
一个点,经过几百个循环就读出来了几百个碱基
但实际上呢,这个芯片上就可以有上亿个点,上亿个“cluster”,也就是“簇”
上亿个cluster,每一个循环,它都可以读出那么多序列,这是illumina测序非常强大的原因,边合成边测序。
有上亿个链都在同时合成,边合成边测序
那么就可以得到一个很大的测序数据量