Li, Heng. "Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM." arXiv preprint arXiv:1303.3997 (2013).
ABSTRACT
Summary: BWA-MEM是一种新的比对算法,用于针对大型参考基因组(例如人)比对 sequence reads 或 assembly contigs。它会自动在 local 和 end-to-end alignments 之间进行选择,支持配对末端读取并执行嵌合比对( supports paired-end reads and performs chimeric alignment )。该算法对测序错误具有鲁棒性,适用于从70bp到几兆碱基的广泛序列长度。对于100bp序列的定位,BWA-MEM的性能优于迄今为止的几种最先进的阅读比对仪。
Availability and implementation: BWA-MEM is implemented as a component of BWA, which is available at http://github.com/lh3/bwa.
INTRODUCTION
① 当序列读取的长度约为36bp时,大多数用于下一代测序(NGS)数据的短读取映射器都已开发出来
② 对于36bp的读取,合理的是要求端对端对齐(即每个读取碱基均应与参考序列对齐),并且仅报告在一定汉明或编辑距离内的命中值
③ 对于100bp或更长时间的读取,在仿射间隔罚分下( the affifine-gap penalty )允许存在较长的缺口( gaps ),并报告可能由参考基因组中的结构变异或组装错误( misassemblies )引起的多个不重叠的局部命中点,变得更为重要; 许多短读比对算法不适用于或不适合映射较长的读段; 同时,尽管存在用于对齐毛细管序列读数 ( capillary sequence reads ) 的几种成熟算法,但它们速度慢且缺乏分析大规模NGS数据的功能; 快速发展的NGS技术一直迫切要求开发新的比对算法。
④ 比对算法举例:
BEA-SW( 2010 ); Bowtie2( 2012); Cushaw2( 2012 ); GEM( 2012 )
列出上述算法不足,引出下文算法( All these concerns motivated us to explore a new alignment algorithm. )
METHODS
一、 Aligning a single query sequence
① Seeding and re-seeding
② Chaining and chain fifiltering
③ Seed extension
二、Paired-end mapping
① Rescuing missing hits
② Pairing
RESULTS AND DISCUSSIONS
BWA-MEM是一种快速,准确的序列读取比对仪,是为70bp读取和长至几兆碱基的长序列都能很好地工作的少数几个。从技术上讲,通过使用基于SSE2的带区DP并将DP限制在长时间精确匹配未覆盖的区域,可以使BWA-MEM在较长序列上更快。Seeding is the bottleneck for short sequences, while banded DP is the bottleneck for long sequences.