本次学习主要基于生信星球的文章测序的世界，站在巨人的肩膀上学知识，嘻嘻~

第一代测序技术：DNA双脱氧链复制法

首先先复习下DNA复制的概念，它以 DNA 为模板，在 DNA 聚合酶的催化作用下，将四种游离的 dNTP 按照碱基互补配对原则合成新链（互补） DNA 的过程。而且DNA碱基对间是靠氢键连接，一条链上的相邻核苷酸是靠磷酸二酯键相连。

DNA结构

在DNA双脱氧链复制法中，采用一种特殊的碱基--ddNTP，由于其2’和3’都不含羟基，其在DNA的合成过程中不能形成磷酸二酯键，因此可以用来中断DNA合成反应。由此获得的一个DNA片段的尾端核苷酸就知道了。

第一代DNA测序技术

如上流程，DNA双脱氧链复制法就是分别在4个DNA合成反应体系中加入带有放射性同位素标记的ddNTP（分为：ddATP,ddCTP,ddGTP和ddTTP）。

比如在含有ddATP合成反应体系中，其它三种碱基均为普通的原料，最后得到所有类型的不同长度的片段，就可以知道A碱基在合成链上所有的分布；如上图得到TA，TACTGA两种片段，即可知在序列的第二与第六位为A碱基。

综合四个反应体系的结果就可以知道这条链的碱基序列，其互补链就是我们想要知道的DNA序列。该测序方法特点有

测序读长可达1000bp，准确性高达99.999%；
测序成本高，通量低，严重影响了其真正大规模的应用。

21世纪初的人类基因组计划（Human Genome Project, HGP）即是采用改良版的桑格（sanger）法进行对人体2.5万个基因的30亿个碱基对的测序

第二代测序技术

第二代测序技术称为高通量测序(High-ThroughputSequencing)，又名下一代测序(Next Generation Sequencing NGS)。顾名思义，它们解决了第一代测序中的低通量的缺陷，同时大大降低测序成本，目前使用最广的是illumina公司的Solexa，Hiseq技术，其核心技术大致相同，介绍如下--

步骤一：构建文库

目的：在需要测序的DNA片段两端加上能够与测序仪配合的接头序列。

获得目标物种的所有mRNA（转库组测序），反转录成DNA，超声波将待测的DNA样本打断成小片段（200-500bp）。然后由中间向两边分别加上三个重要的片段--

接头序列

三种片段从外到里介绍如下

（1）Terminal Sequence：与流动槽（Flow Cell）结合的区域，通常只有P5片段与流动槽P5'结合。

Terminal Sequence

（2）Index序列，又称barcodes：index标签一般为8个碱基组成。
加标签的目的：一是由于一条通道（lane）上经常对多个样本DNA测序，每种样本的DNA都由一种index序列标记，这样就能根据已知的标签序列，分清所测得的样本序列了。二是在DNA两端会加入相同的标签，目的是为了在PE测序时，确定两次的结果是否来自同一个样本。（这里还要注意一下，如图，index1在右边；而index2在左边。在下面测序的介绍中就能理解了）

Index

（3）测序引物结合位点(Read Sequencing Primer )：为Read1和Read2测序引物结合的区域。

测序引物结合位点

步骤二：上样建簇

目的是为了把一个片段扩增成一个簇；在后期荧光效应放大，便于检测
在介绍前，先介绍下什么是流动槽 flow cell

流动槽

如图，流动槽为有多条通道（lane）的厚玻璃片，内表面种有2种DNA引物（P5' 与 P7）

种有大量DNA引物片段的流动槽通道

1、将构建好的文库中的待测序列事先配置好一定的浓度流经过槽，在特异的化学试剂作用下，样品序列P5 端与 lane 上的P5' 互补配对，生成新链。

此时通道上的P7端DNA引物暂时空着。
第一轮扩增模板（上样）: P5--P7，然后被强碱试剂冲走；
第一轮结果：新合成的DNA链（P5'-P7'）以共价键连接的方式结合在流动槽表面；

2

2、桥式扩增：加入缓冲溶液，互补链的P7' 弯曲成桥状和 lane 上的P7互补

第二轮扩增模板（弯曲）：P7'-P5'
第二轮结果：P7--P5 （数量扩大一倍）

5
大约35个循环后，每个DNA片段都将在各自的位置上集中成束/簇（cluster），大概有5k到10k个。

6
利用甲酰胺基嘧啶糖苷酶（Fpg）切掉lane 上P5 连接的链，只留下了与lane P7连接的链（Forward Strand）。注意此时的P7--P5，即我们的样品DNA链。

7

为了防止后续测序过程中不必要的DNA延伸，对流动槽上结合的所有DNA分子的3’端（最上端）进行封闭。

步骤三：测序

1、将Read 1测序引物加入流动槽，使其与待测DNA分子的接头序列结合。

2、加入特殊的四种核苷酸原料dNTP，有如下特点：

3'羟基被叠氮基团替代。因此类似ddNTP，结合后就会中断下一个NTP的接合；但是可以改为正常NTP；
四种dNTP分别带有四种荧光基团，激发四种不同的荧光。
3、在第一个dNTP添加到合成链上后，中断继续合成，将所有未使用的游离dNTP和DNA聚合酶洗脱掉；然后加入激发荧光缓冲液，用激光激发荧光信号，光学设备记录荧光信号，计算机将光学信号转化为测序碱基；

捕获通道荧光照片

4、加入化学试剂淬灭荧光信号并使dNTP 3’ 叠氮基团变成羟基，继续第二个碱基的合成如此重复直至所有链的碱基序列被检测出，得到了Forward Strand序列，然后read product被冲掉。

9

5、Index1 primer（引物）和链上的index1 互补配对，进行Index1的检测（为read1的标签）
6、原始Forward strand（P7---P5）桥式互补，得到新的Reverse Strand（P5'---P7'），然后除去测完的Forward strand。

7、然后以上述同样的方法分别进行Index2 与 read2的测序。

以上是常见的双末端（Paired-end，PE）测序方法。对于过程中index2的测序还有些疑惑，暂且存疑！此外还有简单的单端（Single-Read）测序，操作就比较简单，测一遍即可。
从测序过程来看，其核心与第一代的sanger法大致相同，都采用了特殊的NTP，中断反应。不过第二代技术中采用了边合成边测序的方法（sequence by synthesis, SBS）

步骤四：后期图像处理

1、扫描出来的最原始的文件，它的格式是“.tiff”文件，记录了每个像素点上采集到的光强度。特点是完全无损，保留了所有的原始信息。但同时数据量太大，既不便于数据的传输，也不便于数据的存储，所以，测序仪在测序过程中，只把tiff文件作为中间文件。最后是把这个tiff文件删掉的。
2、计算机软件就把图像文件转化成光点文件，叫“.BCL”文件（Base calling），即每一个簇的光点，并记录其位置信息（在哪条lane的哪个tile里，以在tile里的坐标信息）与光强信息（这个光点当中“红、黄、蓝、绿”四种光的对应的光强。）。

tile是lane通道里划分的许多方块区域，照相也是根据tile来处理的。
光强信息里，最理想的情况是一个簇里只显示一种颜色，但由于存在误差，会有其它颜色的干扰。主要为Phasing与Prephasing两种误差，如下介绍：

image.png

3、根据荧光信息，识别对应碱基；然后进行read测序质量检测评价，主要是一个Quality Score（Q值）的打分，来衡量这个碱基被误判的可能性。

计算方法：可能性换算出以10为底的对数，再乘以“-10”得到的数字；
比如Q30，就是指一个碱基的可靠性达到99.9%；Q40，就是指一个碱基的可靠性是99.99%
储存形式：Q值加上33，再用ASCII码表转换成一个字母。

做完上述这些，最终就得到了Fastq文件，其包含了测序中所得到的所有read片段的目录信息、序列信息（关键），Q值信息。基于此数据，就可以正式开始mRNA转录组分析了。

据我了解，其实测序工作是交给公司直接做就行了，一般会直接给我们测好的fastq文件。但是对于其中的一些基础知识还是要明白一些为好。以上是我学习整理的一些测序知识，如有错误，恳请指正。部分图片来自网上，侵删~

关于测序深度与测序覆盖率

在之前学习过程中，遇到上述两个概念，感觉还蛮重要的，补充到这里算是一个彩蛋吧~

1、测序深度（Sequencing Depth）

指测序得到的总碱基数（bp）与所测物种基因组大小的比值（相当于测了几遍），其是评价测序量的重要指标之一；

举一例子来说：测序产生了1000条读段（read），每条读段的长度为50bp，所测物种的基因组大小为10000bp，那么测序深度为1000*50/10000=5X；

一般来说，测序深度越深越好，当然还需考虑一个成本的问题。
全基因组测序，一般测序深度为30X以上对检测基因组变异的可靠性会有很大帮助;
测序产生的错误率或假阳性结果会随着测序深度的提升而下降。

2、测序覆盖度（Sequencing Coverage）

指测序数据匹配到参考基因组上后，能够覆盖基因组的区域比率。

举一例子来说：测序产生了1000条读段（read），每条读段的长度为50bp，所测物种的基因组大小为10000bp，测序读段匹配到参考基因组后能够覆盖9000bp的参考基因组，那么测序覆盖度就为9000/10000=90%。

因为基因组有些区域重复序列较复杂或测序难以捕获到，那么这些区域可能就不会被测序读段所覆盖。

RNA-seq学习：No.2测序基础知识