学习笔记DAY7-张帅

第1代测序技术
由Sanger等发明双脱氧核苷酸末端终止法和Gilbert等发明的化学降解法。

Sanger测序原理
由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应。在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP,得到片段大小不一致的DNA混合物,然后通过凝胶电泳分离和放射自显影后识别确定待测分子的DNA序列。

特点:读长长(1000 bp),准确性高(99.999%),通量低。

第2代测序技术
边合成边测序(Sequencing by Synthesis,SBS)
在Sanger等测序方法的基础上,通过技术创新,用不同颜色的荧光标记四种不同的dNTP,当DNA聚合酶合成互补链时,每添加一种dNTP就会释放出不同的荧光,根据捕捉的荧光信号并经过特定的计算机软件处理,从而获得待测DNA的序列信息。

特点:通量高、时间短、读长短。

第3代测序技术
即单分子实时DNA测序。DNA测序时,不需要经过PCR扩增,实现了对每一条DNA分子的单独测序。

单分子测序技术原理
SMRT技术:
SMRT测序速度快,每秒约数个dNTP),但是,测序错误率也较高(达到15%,可通过多次测序进行有效的纠错)。

特点:无需PCR扩增,读长长,无视GC含量的影响

纳米孔单分子测序技术:**
该技术的原理是当在膜两侧施加电压,分子马达驱动DNA分子通过纳米孔,导致电荷发生变化,每种碱基引起的电流变化是不同的,通过检测这些电流进而转化为对应的碱基序列。

常用数据格式
Fastq格式:一种基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式,一般都包含有4行。

第1行:由‘@’开始,后面跟着序列ID和可选的描述,序列ID是唯一的;

第2行:碱基序列;

第3行:由‘+’开始,后面是序列的描述信息;

第4行:第二行序列的质量评价(quality value)。

Fasta格式:

1:以“>”为开头,fasta格式标志。

2:序列ID号,gi号,NCBI数据库的标识符,具有唯一性。

格式为:gi|gi号|来源标志|序列标志(接收号、名称等),若某项缺失可以留空,“|”保留。

3:序列描述。

4:碱基序列,序列中允许空格、换行、空行,一般一行60个。

Fastq文件转Fasta文件

Linux命令

1:sed '/^@/!d;s//>/;N' your.fastq > your.fasta

2:seqtk seq -A input.fastq > output.fasta

GenBank & EMBL

GenBank格式

序列的开头以“ORIGIN”标记,末尾以“//”标记。

EMBL格式

以标识符行(ID)开头,后面跟着更多注释行。

序列的开头以“SQ”开头标记,序末尾以“//”标记。


image.png
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容