bioinfo100-第2题-(2)barcode&illumina初探

参考
zhn博客

什么是barcode?

给sequence打的标签tag = barcode;
在过去的这些年,虽然NGS越来越成熟,通量越来越高,但是其精确度缺没有什么提高,在某些高通量平台甚至测序精确度有所下降。考虑某些生化水平的错误是不可避免的,约2009年,出现了一种创新的方法来识别和过滤错误信息,而不是整体上通过“preventing”的方法,来提高测序的准确度。

这种方法,最后被称为single-molecule consensus sequencing, tag-based error correction or molecular barcoding(单分子共识测序,基于标签的错误校正,或者,分子条形码)。这种方法迅速称为了高精确度NGS测序应用的新标准。

而其中的关键标签Tag,就被成为Barcode。

作用:

  • 对于测得的两个相同的序列,通常不可能确切地确定它们是从同一起始分子来的的PCR拷贝还是从两个独立分子的PCR拷贝中读出了两个相同的序列。
  • 但是,如果在PCR扩增之前,将互相独立的Barcode标签连接到每个DNA片段分子上,这个标签就能够被所有从这条DNA原始序列扩增得到的Copy所携带,从而可以确定相同的reads是否来自共同的一个原始DNA片段

什么是UMI&SMI?

  • It is worth noting that the concept of a molecular barcode (also known as a unique molecular identifier (UMI), a single-molecule identifier (SMI) or simply a tag) is different from that of an index sequence.
    得注意的是,分子条形码(也称为“唯一分子标识符”(UMI),“单分子标识符”(SMI)或简称为标签tag)的概念与测序流程中的index序列是不同的!

  • Molecular barcodes serve to uniquely label individual molecules within a sample, whereas index sequences are identical DNA labels that are affixed to all molecules in a given sample for the purpose of sample multiplexing.
    分子条形码用于唯一标记样品中的单个分子,而索引序列是相同的DNA标记,这些标记被附加到给定样品中的所有分子上,以进行样品多路复用。

  • More importantly, because all identically tagged reads will have derived from a common founder (provided that barcodes are designed carefully), any variation between their actual sequences must necessarily reflect technical errors
    更重要的是,由于所有标记相同的reads都将来自一个共同的DNA片段(假设条形码是经过精心设计的),因此它们实际序列(这些reads)之间的任何差异都一定反映了测序技术的错误

  • Tag-based error correction relies on this principle:
    基于标签的错误纠正依靠以下原理:

-- independent reads sharing a common tag are recognized and grouped as amplicon copies of the same starting molecule;
识别具有共同标签的独立读段,并将其分组为同一起始DNA分子的扩增副本;
-- any sites of sequence differences among the reads are discounted as errors when forming a consensus sequence
当形成共有序列时(含有共同barconde的序列被称为共有序列),reads之间的任何位置的序列差异都被作为错误而去除;

  • Over the past 5 years, molecular consensus sequencing has proved itself as the most impactful means for reducing NGS errors.
    在过去的5年中,分子共有序列测序已证明是减少NGS错误最有效的方法。

  • The variety of approaches developed to date can be grouped into three basic categories:
    迄今为止开发的各种方法可以分为三个基本类别:

-- single-strand consensus sequencing;

单链共有序列

-- two-strand consensus sequencing;
双链共有序列

-- and duplex consensus sequencing (FIG. 2).【啥是duplex consensus sequencing?】

Duplex Sequencing基于二代测序技术原理,通过独立的添加标签到reads两端,使得互补的两条单链通过PCR扩增形成一个可以通过唯一标签识别的reads家族,再利用单链矫正和双链互相矫正的方法排除错误,减小错误率。

众所周知,如果两条互补链是完整的,那么真的突变应该在两条链上都有发生,相反如果是PCR或着是测序过程产生的随机错误则只会发生在一条链上。而对于那些只发生在一条链上突变,很可能是DNA双链完整性遭到破坏导致的,后续可用来分析DNA损伤发生的位点情况。

image.png

给individual的DNA分子打上条形码Barcode

第2题,测序技术初探

现在我们实验室或者公司常用第1代测序与第2代测序,那么:

1. 第1代测序 sanger 测序法的原理是什么?通量比较低的核心原因是什么?

sanger法测序及双脱氧链终止法,它采取DNA复制原理,通过在DNA复制过程中添加双脱氧三磷酸核苷酸(ddNTP)终止DNA链的延伸,在DNA链不同位置的延伸终止判断该位置的碱基类型。但是凝胶电泳的时间较长,导致sanger法测序通量低。

2. 作为2006年正式发布的illumina测序技术,或者称为第2代测序技术的代表性技术,其最大的特点是什么?

高通量,成本低,但测序长度较短。

3. Illumina测序技术的核心是什么?

核心内容有两个,一个是桥式PCR,主要用于扩大信号;另一个是4色荧光可逆终止反应,使illumina测序可以实现边合成边测序的技术。

4. Illumina测序技术为什么不能像第1代测序技术一样测500bp以上?

主要的原因有两个,一方面测序时,经过长时间的PCR,会有不同步的情况。比如一开始1个cluster中是100个完全一样的DNA链,但是经过1轮增加碱基,其中99个都加入了1个碱基,显示了红色,另外1个没有加入碱基,不显示颜色。这时候整体为红色,我们可以顺利得到结果。随后,在第2轮再加入碱基进行合成的时候,之前没有加入的加入了1个碱基显示红色,剩下的99个显示绿色,这个时候就会出现杂信号。当测序长度不断延长,这个杂信号会越来越多,最后很有可能出现50个红,50个绿色,这时信号不足以判断碱基类型;第二就是测序过程中合成酶的活性越来越不稳定,后面碱基添加出现问题。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Author:ligc Date:19/5/12 1. 一代测序(Sanger sequencing) 双脱氧链终...
    颤抖吧__小虫子阅读 18,529评论 3 35
  • 一、生物信息学研究方向: ​ 1.序列比对: BLAST算法、FASTA算法。 ​ 2.蛋白质比对。 ​ 3.基因...
    晓佥阅读 9,190评论 0 17
  • 前言 本文并非原创,来自多篇博文摘录。 第一节 NGS测序技术 在真正开始数据分析之前先知道我们是如何将那些原本存...
    oddxix阅读 8,030评论 0 28
  • 一,下载软件Aspera 简介:Aspera是一款高速传输软件,不受文件大小,网络条件等影响,速度比HTP和FTT...
    Lillian李李安阅读 6,111评论 0 11
  • 课程内容3.1.核酸的物理化学性质3.2. 核酸的一级结构3.3. 核酸的二级结构3.4. DNA superc...
    KXie阅读 5,954评论 0 2