NGS 数据mapping 算法简介

简介

取得测序序列信息后,在有参考基因的情况下我们通过Mapping 到参考基因组进行后续分析;没有则重头拼接序列。

一般而言,基因组的组装将比read alignment 消耗更多的计算资源。然而,read alignment 也有一些基础的挑战。

  1. 参考基因组,组装不完整,存在一些gap。来源这些gap的read 将unmapped 或是 错误map 到相似区域。
  2. 基因组存在重复区,reads 会map 到多个区域,比对软件一般会随机选择一个区域。
  3. 比对软件需要容忍read 和参考基因之间的差异(SNV、Indel)

Read Alignment

一般流程

read alignment 一般分三个步骤。

  1. 对参考基因组建立索引
  2. 利用index 找到read 在参考基因组的大致位置(一般有多个候选位置)
  3. 对read 和 参考基因组相关区域进行pairwise alignment(SW、NW、汉明距离)

索引技术

Hashing 是最流行的参考基因组索引技术。

利用哈希表构建短序列(seed、K-mer)和参考基因组对应位置的映射关系。在mapping 时,从read 中截取相应长度的seed ,从哈希表中检索到参考基因组位置列表(精确比对)。

后缀树索引

基于后缀树的索引,通常更快。后缀树是一种树型数据结构,各个分支记录了基因组不同的后缀,共有的前缀只会被记录一次。

Pattern Searching using Suffix Tree - GeeksforGeeks

与哈希表索引不同,后缀树索引能够通过绕过某些node进行非精确匹配。除了少量工具单独使用后缀树索引,更多的工具采用BWT-FM 索引,来模拟后缀树遍历过程,同时可以减少内存消耗。

小结

基于Hashing 索引和BWT-FM索引的两大类方法,在运行效率上没有明显的差异。但是BWT-FM工具,对内存的消耗更少(Hashing 是其3.8倍以上)。

确定Reads 基因组比对位置

大部分的工具采用定长的seed来检索到reads 在基因组上的位置。一般这种seed 定位到的基因组位置比较多(取决于seed大小),大部分工具会采用启发式算法,计算每个给定位置的分值,设定检测阈值,从而避免检查seed 在基因组中出现的每一个位置。

提高seed长度,能同时减少每条read的seed数量以及,seed在基因组的位置数量。但是会降低比对的灵敏度(seed 越长,对应长度的read 可以容纳的错配数越低)。为了提高seed的长度,同时不降低比对的灵敏度,可以采用spaced seeds。

在比对过程中使用不同长度的seed,可以提高错配的容忍度,一般称为hybrid seeding。由于基于哈希表的索引方式,针对不同长度的seed要建立多个hash tables,会需要额外的计算资源,所以hybrid seeding 更多的是被BWT-FM索引工具采用。

Pairwise alignment

比对算法的最后一步就是计算,候选区域和reads 的实际相似程度,选择最佳的比对位置。

这一步的算法分为两大类,1. 基于动态规划的算法;2.非动态规划类算法。

动态规划类算法(DP)主要是,局部比对算法Smith-Warterman、全局比对算法Needleman-Wunsch。

非动态规划类算法(non-DP):Hamming distance 、Rabin-Karp algorithm。

对indel感兴趣的话,DP类算法更好。也可以结合使用。

长读长reads 比对算法

随着长读长技术发展,相应也产生了对应的比对工具。目前长读长比对算法沿袭短读长算法的三步走方式。

有些算法甚至将长读长的read切割成的短读长,再分别进行比对。长读长算法要解决的主要问题是,较大的测序错误和异常多的seed。所以现行的算法,要通过启发式的方法从reads中截取比较少的seed 。最近的算法从基因组区域内的一组相邻的种子中寻找种子的最小代表集,而不是为整个种子集创建一个哈希表,称为minimizers。使用这种技术可以提高比对效率,降低准确性。

RNA-Seq 比对算法

RNA-Seq比对的难点在于,这是spliced alignment,需要解决的问题是,reads 可能会跨越内含子,存在一个大的gap。

Hashing 是RNA-Seq最常用的比对技术。

参考文献

Alser, M., Rotman, J., Deshpande, D. et al. Technology dictates algorithms: recent developments in read alignment. Genome Biol 22, 249 (2021). https://doi.org/10.1186/s13059-021-02443-7

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容