单端测序与双末端测序问题

问题

Paired-End测序与Mate-Pair测序相对于单端测序有何优势？
Paired-End中的Read1和Read2到底是啥关系？它们是如何参与拼接和比对的呢？
Mate-Paired与Paird-End两种不同建库测序的区别在哪里？产生的数据有何不同？各自有哪些优缺点？
Single-Read测序、Paired-End测序、Mate-Pair测序，何时选择哪种测序策略？读长、插入序列为多少？
不懂的问题很多，困惑很多，借此寻找答案的机会也将单端测序与双末端测序的区别整理一下，巩固基础知识。

学基础

Single-Read测序、Paired-end和Mate-pair主要区别

以上三者的区别主要在于测序文库的构建方法上。

Single-Read测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段，引物序列连接到DNA片段的一端，然后末端加上接头，将片段固定在

flow cell上生成DNA簇，上机测序单端读取序列。该方式建库简单，操作步骤少，常用于小基因组、转录组、宏基因组测序。

image

Paired-end文库制备是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点，在第一轮测序完成后，去除第一轮测序的模板链，用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增，以达到第二轮测序所用的模板量，进行第二轮互补链的合成测序。

image

Mate-pair文库制备旨在生成一些短的DNA片段，这些片段包含基因组中较大跨度(2-10 kb)片段两端的序列，更具体地说：首先将基因组DNA随机打断到特定大小（2-10 kb范围可选）；然后经末端修复，生物素标记和环化等实验步骤后，再把环化后的DNA分子打断成400-600 bp的片段并通过带有链亲和霉素的磁珠把那些带有生物素标记的片段捕获。这些捕获的片段再经末端修饰和加上特定接头后建成mate-pair文库，然后上机测序。

image

解困惑&答问题

为何要有 Paired-end这样的技术发明呢？

主要原因在于Illumina的二代测序仪的读长短，相对于第一代sanger测序法（约1000bp）或者跟同属于NGS的其他测序仪相比短了许多。因此illumina发展了 Paired-end的建库测序技术。同时这种技术还大大推进了基因组学数据分析的发展。
例如，依赖于Paired-end的技术，假设一个DNA片段刚好跨越了重复序列区域（下图左侧）以及独特序列区域（下图右侧）。加入只读取Single-Read，我们只会获得红色实线的序列信息，也就是ATATATAT。接下来，当我们想要将这段read跟reference genome做比对的时候，便会出现问题：到底这段read是出自于红色实线的位置，还是红色虚线的位置？这个问题我们就可以使用Paired-end的技术来加以解决。由于Paired-end reads之间的距离为已知（在此我们设为34bp），我们便可以先定位绿色read的位置，在正确定位出左边红色re reads之间 ad的位置，而不至于将其误判在红色虚线的位置。如下图所示：

image

此外，根据我们内部的一个测试。在进行de novo assembly的时候，序列长度以及Paired-end的序列信息可以让我们得到最好的组装结果。透过下边可以发现，Paired-end的序列信息甚至比序列长度要来得更为重要。因此，建议大家在选择测序方案的时候，尽量选择Paired-end吧！

image

总结，不管采用哪种方式，PE/MP测序的结果除了序列本身外还有中间的距离信息。距离信息可以用来判定组装后成对reads间的序列是否准确，也可用来帮助组装。这种测序方式可以用来解决基因组中的重复序列难题，被广泛采用。目前在采用双端测序法时，454平台建库最长（最长能达到20k），Illumina 建库长度最短（小于5k）。由于Solid和Solexa都是采用桥式扩增的方式，其本身自带Paired-End测序能力。而454和Ion Torrent要对打断后的片段进行环化、酶切，然后才能进行 mate-paired 测序。因此建库的成本会比单端测序的高。

Paired-End reads是如何比对的？

Paired-End reads是如何拼接的？

单端测序与双末端测序问题