第1代测序技术
由Sanger等发明双脱氧核苷酸末端终止法和Gilbert等发明的化学降解法。
Sanger测序原理
由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应。在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP,得到片段大小不一致的DNA混合物,然后通过凝胶电泳分离和放射自显影后识别确定待测分子的DNA序列。
特点:读长长(1000 bp),准确性高(99.999%),通量低。
第2代测序技术
边合成边测序(Sequencing by Synthesis,SBS)
在Sanger等测序方法的基础上,通过技术创新,用不同颜色的荧光标记四种不同的dNTP,当DNA聚合酶合成互补链时,每添加一种dNTP就会释放出不同的荧光,根据捕捉的荧光信号并经过特定的计算机软件处理,从而获得待测DNA的序列信息。
特点:通量高、时间短、读长短。
第3代测序技术
即单分子实时DNA测序。DNA测序时,不需要经过PCR扩增,实现了对每一条DNA分子的单独测序。
单分子测序技术原理
SMRT技术:
SMRT测序速度快,每秒约数个dNTP),但是,测序错误率也较高(达到15%,可通过多次测序进行有效的纠错)。
特点:无需PCR扩增,读长长,无视GC含量的影响
纳米孔单分子测序技术:**
该技术的原理是当在膜两侧施加电压,分子马达驱动DNA分子通过纳米孔,导致电荷发生变化,每种碱基引起的电流变化是不同的,通过检测这些电流进而转化为对应的碱基序列。
常用数据格式
Fastq格式:一种基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式,一般都包含有4行。
第1行:由‘@’开始,后面跟着序列ID和可选的描述,序列ID是唯一的;
第2行:碱基序列;
第3行:由‘+’开始,后面是序列的描述信息;
第4行:第二行序列的质量评价(quality value)。
Fasta格式:
1:以“>”为开头,fasta格式标志。
2:序列ID号,gi号,NCBI数据库的标识符,具有唯一性。
格式为:gi|gi号|来源标志|序列标志(接收号、名称等),若某项缺失可以留空,“|”保留。
3:序列描述。
4:碱基序列,序列中允许空格、换行、空行,一般一行60个。
Fastq文件转Fasta文件
Linux命令
1:sed '/^@/!d;s//>/;N' your.fastq > your.fasta
2:seqtk seq -A input.fastq > output.fasta
GenBank & EMBL
GenBank格式
序列的开头以“ORIGIN”标记,末尾以“//”标记。
EMBL格式
以标识符行(ID)开头,后面跟着更多注释行。
序列的开头以“SQ”开头标记,序末尾以“//”标记。