基因组序列分析中,序列一致性指的是什么?

何谓序列一致性(Sequence identity)?我想大家或多或少应该知道,它指的是两个不同序列之间的相似程度,这是对序列比对结果的一个描述,也常常被用于基因组之间的比较。

测序read比对于参考基因组的时候,这个一致性也可以用来反映测序错误率的大小。不过,不知道大家是否注意到这样的情况,那就是当我们说“两个物种之间的序列差异是多少多少”或者说“测序错误率是什么”时,我们实际上是默认大家都清楚地知道这个“序列一致性”是怎么计算的。而要达到这个“默认”,就意味着这个计算是唯一的。但事实上,序列一致性的计算方法是有多种的,并非唯一,所以这就有必要引起我们的注意了。

李恒博士在他最新开发的长序列比对软件——minimap2时就谈到过这个问题。这篇文章我们借用李恒博士举过的例子来对这个问题进行具体说明。

我们用下面这两条序列为例子,其中第一条是参考序列(Ref),另一个是要去比对的Query序列(Qry),我们来计算一下它与参考序列之间的一致性情况。

Ref: CCAGTGTGGCCGATACCCCAGGTTGGCACGCATCGTTGCCTTGGTAAGC
Qry: CCAGTGTGGCCGATGCCCGTGCTACGCATCGTTGCCTTGGTAAGC

当然要计算一致性就需要先进行序列比对,但既然涉及到序列比对,那么就需要先规定一个打分矩阵,否则我们就不知道该如何比了。按照最经典的做法,比对的打分矩阵一般是这样定义的:

匹配得1分
错配得-2分
开gap是-2分
gap的延伸是-1分

按照这样的打分矩阵,我们可以得到这两个序列的最佳比对情况将如下:

结果有了之后,仔细数一下,我们就可以知道,在上面这个比对例子中,完全匹配的比对碱基是43个、错配1个、同时还有5个序列删除和1个序列插入。如果我们用BAM中的CIGAR字符串来表示这个比对,那么是:18M3D2M2D2M1I22M。

根据这个比对结果,我们目前有三个不同的方法来计算序列的一致性比例。如下:

1. 不算gap

顾名思义,这个方法在计算的时候是不把gap计算在内的,只考虑匹配和错配这两种情况。所以,这时序列一致性的计算公式是这样的:

序列一致性 = 完全匹配数/(完全匹配数+碱基错配数)

在这个例子中,按照这个方法来计算的话,其序列一致性就是:43/(43+1) = 0.977,也就是这个两个序列之间有97.7%的一致性。

这个计算方式也是我们以前比较人类基因组和黑猩猩基因组一致性程度时,得到98.77%这个一致性值所采用的方法,在那篇黑猩猩基因组文章中,原文的描述是这样的:“Single-nucleotide substitutions occur at a mean rate of 1.23% between copies of the human and chimpanzee genome”。

2. BLAST的序列一致性计算方法

BLAST有它自己的一套方法,而且很简单。它在计算序列一致性的时候,直接只计算在总比对长度中,匹配上的碱基数目所占到的比例。需要特别说一下的是,这个总比对长度除了指匹配和错配这两个情况的碱基数目之外,还包括:序列删除和序列插入的长度。比如,在上面的例子里面,虽然Ref序列的长度是49,但是总比对长度却是50(就是要多加1个插入碱基的长度)。所以,按照这个方法,序列一致性的结果就是:43/50=0.86(也就是86%)了。

BLAST的计算方法应该是我们用得最多的一个。不过在用它来对序列比对结果进行过滤的时候就要特别注意了,尤其是当遇到ALU这一类转座子元件的时候更是如此。

因为由于生物本身的机制,这类转座元件在基因组上发生序列插入或者删除时,往往是一次性整体发生的,不会分成多个独立事件分开进行。

举个例子,假设我们有一个1000bp长的序列,中间有一个300bp的ALU序列插入,那么完成比对之后,按照BLAST一致性的计算方式,我们就将只得到70%的序列一致性,但这是不对的,因为,这个300bp的ALU序列实际上是一次性发生的,而不是分成了300次。这时如果仅仅只是按照序列一致性的高低作为条件来过滤比对结果,那么很可能会挑到错误的比对。

3. gap压缩

这个计算方法就比较特别了,其实它的目的是为了解决上面这个BLAST计算一致性时所出现的问题而提出的。这也是李恒在minimap2算法中所使用的方法,它的值记录在minimap2比对结果文件的ed:f标签中,可以直接调出查看。

它的定义和BLAST类似,分母也是要求比对的总长度,但这个“总长度”并不是像BLAST那样的硬长度!而是要把那些连续的gap区域压缩起来,当做只有1个字符来计算,比如下图这样:

左边是原始总长度,右边就是计算的时候把gap压缩成一个字符来看待的长度。不过要注意的是右边这个形式,并不是真实的比对结果,而只是在计算时,从逻辑上将它处理成这样而已。实际上,就是把每一个的gap比对,不管它延伸出来的区域有多长,都只看做是一次整体事件而不是多个——实际上这应该也更符合实际的生物过程,这就可以避免在BLAST中可能碰到的类似情况。

所以,如果按照这个方法来计算,我们上面那个例子的序列一致性就变成了 43/(43+1+2+1) = 91.5%。看这个分母43+1+2+1,后面1+2+1分别代表的是:1个错配,2个序列删除和1个序列插入。

比对所用的打分矩阵也会对序列一致性的计算结果产生影响

比对结果的好坏需要通过打分矩阵来计算和衡量,既然如此,打分矩阵的变换往往将导致比对结果的变化,而比对结果变了,那么序列一致性的计算结果也必然会跟着改变。

比如,我们把上述例子一开始所用的打分矩阵略作修改,将开gap的分数改为 -4 分,其它不变。做完这个修改之后,我们会发现,这一次最佳的比对结果就变成了这样:

按照这个新的比对结果,这两个序列之间的一致性情况如何呢?

按照BLAST的计算方式是:42/50=83.7%,按照gap压缩的方法则是,41/(41+4+1)=89.1%,可以看到这个结果就和原先的都不同了。

小结

举这些例子不是为了在这篇文章里对这些计算方法比个优劣,定个高低,而是想说,有时候对看似简单的问题,也值得我们多留个心眼,不应该只是做一个“规矩”的工具党。当你碰到这类有关序列一致性或者讨论测序错误率的时候,应该先搞清楚前提条件是什么,是用什么方法计算的,打分矩阵是什么样的,于你关心的是否相同等,不要想当然,这个序列一致性并没有一个唯一的计算方式(话虽如此,我觉得gap压缩的方法应该是更优的一种)。如果你不怎么关注它的计算细节和条件,那么在做研究和分析的过程中踩到不该踩的坑也只是迟早的事了。

参考

http://lh3.github.io/2018/11/25/on-the-definition-of-sequence-identity


欢迎关注我的公众号:碱基矿工(helixminer),更及时了解更多信息

你还可以读

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,711评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,079评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,194评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,089评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,197评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,306评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,338评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,119评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,541评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,846评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,014评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,694评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,322评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,026评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,257评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,863评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,895评论 2 351

推荐阅读更多精彩内容