测序知识
一代测序
Sanger测序是最早的测序方法,也就是双脱氧终止反应法。其基本原理就是利用双脱氧的核苷酸不带有羟基的特性,因此后续的核苷酸不能够继续结合上去,然后DNA链的延长反应也就到此终止。因为在4个反应体系中,每一个体系中都有dNTP和对应的ddNTP(一共有4个反应槽,每一个反应槽分别加入一定量的ddATP、ddTTP、ddCTP、ddGTP)。然后反应开始,由于ddNTP和哪个位点结合是一个随机事件,因此按照理论来讲,基本上每一个位点都可以结合相应的ddNTP。最后根据凝胶电泳和荧光来读取碱基的信息。
优点:读长较长,准确率高
缺点:通量小,测序成本较高
二代测序
代表:
- Roche公司的454技术
- illumina公司的Solexa
- Hiseq技术和ABI公司的Solid技术
以illumina公司为例说明二代测序的原理
其主要分为下面四个步骤:
-
DNA文库建立
利用超声波把待测的DNA样本打断成小片段,形成200-500bp长的序列片段,并在这些小片段的两端添加上不同的接头,构建出单链DNA文库。
-
在测序芯片上合成DNA簇
Flowcell是用于吸附流动DNA片段的槽道,是测序反应的载体/容器。1个flowcell有8个lane(lane主要是测序反应的平行泳道,试剂添加、洗脱等过程的发生位置)。当文库建好后,这些文库中的DNA在通过flowcell的时候会随机附着在flowcell表面的channel上。每个Flowcell有8个channel,每个channel的表面都附有很多接头,这些接头能和建库过程中加在DNA片段两端的接头相互配对,并能支持DNA在其表面进行桥式PCR的扩增。
-
桥式PCR扩增和变性
桥式PCR以Flowcell表面所固定的接头为模板,进行桥形扩增。经过不断的扩增和变性循环,最终每个DNA片段都将在各自的位置上集中成束,每一个束都含有单个DNA模板的很多分拷贝,进行这一过程的目的在于实现将碱基的信号强度放大,以达到测序所需的信号要求。 桥式PCR可以对DNA进行快速的扩增。
-
边合成边测序
测序方法采用边合成边测序的方法。向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4中dNTP(如同Sanger测序法)。这些dNTP的3’-OH被化学方法所保护,因而每次只能添加一个dNTP。在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除dNTP 3’-OH保护基团,以便能进行下一轮的测序反应。
优点:通量高,单位测序成本低
缺点:读长较短,样本制备较复杂
三代测序
以PacBio公司的SMRT和Oxford Nanopore Technologies纳米孔单分子测序技术,被称之为第三代测序技术。与前两代相比,他们最大的特点就是单分子测序,测序过程无需进行PCR扩增。
PacBio公司的SMRT技术也采取了边合成变测序的思想。其基本原理是: DNA聚合酶和模板结合,4色荧光标记 4 种碱基(即是dNTP),在碱基配对阶段,不同碱基的加入,会发出不同光,根据光的波长与峰值可判断进入的碱基类型。同时这个 DNA 聚合酶是实现超长读长的关键之一,读长主要跟酶的活性保持有关,它主要受激光对其造成的损伤所影响。SMRT技术的测序速度很快,每秒约10个dNTP。但是,同时其测序错误率比较高(这几乎是目前单分子测序技术的通病),达到15%,但好在它的出错是随机的,并不会像第二代测序技术那样存在测序错误的偏向,因而可以通过多次测序来进行有效的纠错。
优点:读长较长,样本制备较简单
缺点:准确率较低
名词结构化
基因组学
- (1)全基因组测序(WGS)
- (2)全外显子组测序(WES)
- (3)简化基因组测序(RRGS)
①RAD-Seq
②GBS
③2bRAD
④ddGBS(也就是ddRAD)
作用:
(1)基因组作图(遗传图谱、物理图谱、转录本图谱)
(2)核苷酸序列分析
(3)基因定位
(4)基因功能分析
其它:
以全基因组测序为目标的结构基因组学
以基因功能鉴定为目标的功能基因组学
转录组学(基因表达分析)
(1)mRNA-Seq
(2)IncRNA-Seq(长链非编码RNA)
(3)sRNA-Seq(主要是miRNA-Seq)
作用:
(1)获得物种或者组织的转录本信息
(2)得到转录本上基因的相关信息,如基因结构功能等
(3)发现新的基因
(4)基因结构优化
(5)发现可变剪切
(6)发现基因融合
(7)基因表达差异分析
蛋白组学
(1)蛋白质组数据处理、蛋白及其修饰鉴定
(2)构建蛋白质数据库、相关软件的开发和应用
(3)蛋白质结构功能预测
(4)蛋白质连锁图
代谢组学
(1)代谢物指纹分析
(2)代谢轮廓分析
常用数据格式介绍
Fastq & Fasta
Fastq格式:一种基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式,一般都包含有4行。
第一行:由‘@’开始,后面跟着序列ID和可选的描述,序列ID是唯一的;
第二行:碱基序列;
第三行:由‘+’开始,后面是序列的描述信息;
第四行:第二行序列的质量评价(quality value)。
Fasta格式:
1:以“>”为开头,fasta格式标志。
2:序列ID号,gi号,NCBI数据库的标识符,具有唯一性。
格式为:gi|gi号|来源标志|序列标志(接收号、名称等),若某项缺失可以留空,“|”保留。
3:序列描述。
4:碱基序列,序列中允许空格、换行、空行,一般一行60个。
Fastq文件→Fasta文件
Linux命令
法1:sed '/^@/!d;s//>/;N' your.fastq > your.fasta
法2:seqtk seq -A input.fastq > output.fasta
FASTX-Toolkit
一款用于处理Short-Reads FASTA/FASTQ文件的程序,里面包含了丰富的Fasta/Fastq文件格式转换、统计等命令。
GenBank & EMBL
GenBank格式
以LOCUS和一些注释行开始。
序列的开头以“ORIGIN”标记,末尾以“//”标记。
EMBL格式
以标识符行(ID)开头,后面跟着更多注释行。
序列的开头以“SQ”开头标记,序末尾以“//”标记。