测序原理及测序平台简介
了解测序平台原理对于理解测序结果很有帮助,如果有机会参加测序仪公司的培训,最好参加下,有助于理解测序原理,他们准备的ppt内容还是挺丰富的,包括一代、二代、三代测序原理的基本介绍,同时一般也会介绍最前沿的测序技术以及各自的优缺点。当然,这些知识点网上已经有很多介绍,不再做无用功。把时间用在最需要的地方。
测序平台介绍可以参考以下两个帖子,其实需要了解的内容就是知道都有哪些测序平台。下面两个帖子介绍的很详细。
2016 NGS Field Guide: Overview
第一代测序技术:Sanger末端终止法: 指双脱氧末端终止法,扩增后通过毛细管电泳读取序列,每次获取数据量少
第二代测序技术:边合成边测序:高通量测序,采用微珠或高密度芯片边合成边测序,代表有454,solexa,solid,高通量,可一次获得数G数据,相对与第三代,都仍然需要扩增的方法放大信号,扩增后再检测。
第三大测序技术分为两大阵营:第一大阵营是单分子荧光测序,代表性的技术为美国螺旋生物(Helicos)的SMS技术和美国太平洋生物(Pacific Bioscience)的SMRT技术。第二大阵营为纳米孔测序,代表性的公司为英国牛津纳米孔公司。
第三代特点是单分子测序,多基于纳米科技,无需扩增,对单分链DNA/RNA直接用合成、降解、通过纳米孔等方式直接测序,核心特点是无需扩增所以成本更低。
二代,三代或者四代测序仪的优缺点是什么
总的来说,二代测序读长段,需要更多的后续软件分析来对结果进行解读,而且二代测序结果分析软件和流程最成熟,但是二代测序可以做基因表达定量。三代测序的优点是读长长,所以覆盖度较好,更适合做基因组测序或者做SNP、基因融合之类的检测,三代测序目前最大的缺点是分析流程及分析软件还不多。
可以参考以下帖子:
一代测序、二代测序以及三代测序的优缺点及应用对比
相比于二代测序,三代测序具有如下优势:
- 第三代基因测序读长较长,如Pacific Biosciences 公司的 PACBIO RS II 的平均读长达到 10kb,可以减少生物信息学中的拼接成本,也节省了内存和计算时间。
- 直接对原始DNA样本进行测序,从作用原理上避免了 PCR 扩增带来的出错。
- 拓展了测序技术的应用领域,二代测序技术大部分应用基于DNA,三代测序还有两个应用是二代测序所不具备的:第一个是直接测RNA的序列,RNA的直接测序,将大大降低体外逆转录产生的系统误差。第二个是直接测甲基化的DNA序列。实际上DNA聚合酶复制A、T、C、G的速度是不一样的。正常的C或者甲基化的C为模板,DNA聚合酶停顿的时间不同,根据这个不同的时间,可以判断模板的C是否甲基化。
- 三代测序在ctDNA,单细胞测序中具有很大的优势:ctDNA含量非常低,三代测序技术灵敏度高,能够对于1ng以下做到监测;在单细胞级别:二代测序要把DNA提取出来打碎测序,三代测序直接对原始DNA测序,细胞裂解原位测序,是三代测序的杀手应用。
第三代基因测序也存在一定的缺陷:
- 总体上单读长的错误率依然偏高,成为限制其商业应用开展的重要原因;第三代基因测序技术目前的错误率在15%-40%,极大地高于二代测序技术NGS的错误率(低于1%)。不过好在三代的错误是完全随机发生的,可以靠覆盖度来纠错(但这要增加测序成本)。
- 三代测序技术依赖DNA聚合酶的活性。
- 成本较高,二代Illumina的测序成本是每100万个碱基0.05-0.15美元,三代测序成本是每100万个碱基0.33-1.00美元。
- 生信分析软件也不够丰富。
FastQC安装及结果解读
FastQC安装
cd ~/path/you/want/to/install/FastQC
wget http://data.biostarhandbook.com/data/sequencing-platform-data.tar.gz
tar xzvf sequencing-platform-data.tar.gz
FastQC官方视频简介,链接:http://pan.baidu.com/s/1i5CJgqh 密码:w0ga
使用multiQC聚合fastqc的输出结果
MultiQC安装
有以下几种方法:
# 1. use pip to install or upgrade
pip install multiqc
pip install --upgrade multiqc
# 2. use conda to install
conda install -c bioconda multiqc
# 3. manual install
cd ~/folder/you/want/to/install
git clone https://github.com/ewels/MultiQC.git
python setup.py install
MultiQC使用方法:
multiqc ~/path/to/your/fastQC/results/ --ignore *.html
FASTQ数据纠错
测序错误是随机的,当测序深度很深的时候,可以通过周围测序结果的一致性来判断小部分不一致的情况是否是测序错误。
fastq纠错程序会尝试纠正或去除有错误的reads。
BBMap short read aligner中的BBNorm功能可以实现fastq文件纠错。官方对于纠错功能简介:
BBMap: Short read aligner for DNA and RNA-seq data. Capable of handling arbitrarily large genomes with millions of scaffolds. Handles Illumina, PacBio, 454, and other reads; very high sensitivity and tolerant of errors and numerous large indels. Very fast.
BBNorm: Kmer-based error-correction and normalization tool.
当然,除了纠错功能以外,还有很多其他功能,可自行探索。
文末福利
The following tutorial are good for newbies, hope you will find your way to success.
Next Generation Sequencing Data Analysis
网页视频教程下载链接:http://pan.baidu.com/s/1bZHFTO 密码:q239
版权属原作者。