测序知识
测序类型及原理
- 第一代DNA测序技术桑格尔-双脱氧链终止法
- 特点:读长长(1000 bp),准确性高(99.999%),通量低
-
原理:桑格尔-双脱氧链终止法
- 第二代DNA测序技术-循环阵列合成测序法
- 特点:通量高、时间短、读长短
- 原理:
(1)sample prep(DNA文库构建):将基因组DNA随机片段化,然后修补成平末端,最后加上特定的接头(Adaptors),构建成DNA文库。
(2)cluster generation(簇生成):Flowcell上面连有两种Adaptors(P5、P7),当DNA经变性后流经Flowcell时,利用Flowcell上的接头与DNA两端的接头相互匹配。DNA进行桥式PCR扩增,从而将碱基信号放大。通过桥式PCR不断循环获得上百万条成簇分布的双链待测片段。
(3)测序
(4)数据产出
- 第三代DNA测序技术-SMRT和纳米孔单分子测序技术
SMRT技术:采用边合成边测序方法,以SMRT芯片为测序载体,芯片上众多小孔中的DNA聚合酶和模板结合,4色荧光标记4种碱基,在碱基配对阶段,加入不同碱基会发出不同的光,根据光的波长与峰值可判断进入的碱基类型。另外,若碱基存在修饰,则通过聚合酶的速度会减慢,因此可以通过检测相邻两个碱基之间的测序时间、两峰之间的距离来检测甲基化等碱基修饰情况。
-
特点:无需PCR扩增,读长长,无视GC含量的影响
纳米孔单分子测序技术:在膜两侧施加电压,分子马达驱动DNA分子通过纳米孔,导致电荷发生变化,每种碱基引起的电流变化是不同的,通过检测这些电流进而转化为对应的碱基序列。
三代测序技术比较
名词结构化
- 基因组学作用:
(1)基因组作图(遗传图谱、物理图谱、转录本图谱)
(2)核苷酸序列分析
(3)基因定位
(4)基因功能分析
(5)其它:以全基因组测序为目标的结构基因组学;以基因功能鉴定为目标的功能基因组学 - 转录组学(基因表达分析)作用:
(1)获得物种或者组织的转录本信息
(2)得到转录本上基因的相关信息,如基因结构功能等
(3)发现新的基因
(4)基因结构优化
(5)发现可变剪切
(6)发现基因融合
(7)基因表达差异分析 - 蛋白质组学作用:
(1)蛋白质组数据处理、蛋白及其修饰鉴定(2)构建蛋白质数据库、相关软件的开发和应用
(3)蛋白质结构功能预测
(4)蛋白质连锁图 - 代谢组学作用:
(1)代谢物指纹分析
(2)代谢轮廓分析
常用数据格式
- DNA序列表征
A C G T U
R = GA(嘌呤)
Y = TC(嘧啶)
K = GT(酮)
M = AC(氨基)
S = GC
W = AT
B = GTC
D = GAT
H = ACT
V = GCA
N = AGCT(任何) - Fastq & Fasta
Fastq格式:一种基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式,一般都包含有4行。
第一行:由‘@’开始,后面跟着序列ID和可选的描述,序列ID是唯一的;
第二行:碱基序列;
第三行:由‘+’开始,后面是序列的描述信息;
第四行:第二行序列的质量评价。
Fasta格式:
1.以“>”为开头,fasta格式标志。
2.序列ID号,gi号,NCBI数据库的标识符,具有唯一性。格式为:gi|gi号|来源标志|序列标志(接收号、名称等),若某项缺失可以留空,“|”保留。
3.序列描述。
4.碱基序列,序列中允许空格、换行、空行,一般一行60个。
Fastq文件→Fasta文件
Linux命令
法1:sed '/^@/!d;s//>/;N' your.fastq > your.fasta
法2:seqtk seq -A input.fastq > output.fasta - GenBank & EMBL
GenBank格式:以LOCUS和一些注释行开始。序列的开头以“ORIGIN”标记,末尾以“//”标记。
EMBL格式:以标识符行(ID)开头,后面跟着更多注释行。序列的开头以“SQ”开头标记,序末尾以“//”标记。
GenBank & EMBL数据库格式的对比
EMBL → Fasta格式转换(在线工具):http://www.geneinfinity.org/sms/sms_embltofasta.html
常见测序文件格式解析的网站:https://genome.ucsc.edu/FAQ/FAQformat.html#format1