illumina平台测序原理
整个测序流程分为四个阶段,分别为
样品制备:通过对待测样品添加与流通池上接头同样的序列,以使测序样品能够成功的与流动池中的街头互补配对
合成集簇:通过桥扩增是待测序的样品在样品池中进行指数扩增
测序:采用边合成边测序的方法测定同时测定样品池中每个碱基的序列
数据分析
测序的发展史
第一代测序
如经典的桑格尔-双脱氧链终止法
优点:读长较长,准确率高
缺点:成本高、通量低
第二代测序
循环阵列合成测序法
优点:提高了测序速度,降低了测序成本
缺点:读长短,拼接困难,pcr技术增加了测序的错误率
第三代测序
采用纳米孔单分子测序技术
优点:不需要经过PCR扩增,超长读长,可达二代测序的100倍以上,实现了对每一条DNA分子的单独测序
缺点:错误率比二代要高,达到10-15%
高通量测序的分类
基因组学
转录组学
蛋白组学
代谢组学
Fastq&Fasta
Fastq:一种基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式,一般都包含有4行
第一行:由‘@’开始,后面跟着序列ID和可选的描述,序列ID是唯一的;
第二行:碱基序列;
第三行:由‘+’开始,后面是序列的描述信息;
第四行:第二行序列的质量评价(quality value)。
Fasta
1:以“>”为开头,fasta格式标志。
2:序列ID号,gi号,NCBI数据库的标识符,具有唯一性。
格式为:gi|gi号|来源标志|序列标志(接收号、名称等),若某项缺失可以留空,“|”保留。
3:序列描述。
4:碱基序列,序列中允许空格、换行、空行,一般一行60个。
Fastq文件→Fasta文件
Linux命令
sed '/^@/!d;s//>/;N' your.fastq > your.fasta
seqtk seq -A input.fastq > output.fasta
第三代测序:新一代的测测序技术都朝着单分子测序在发展,未来的目标是让测序反应小规模化,精准化而且高效化。
测序技术
1.PacBio 实时单分子测序
2.Complete Genomics公司的复合探针-锚定连接技术
3.Oxford Nanopore 纳米孔单分子通道技术
4.Ion Torrent电子流检测技术