前言
最近在看一些关于生态、遗传、基因组进化等的文献,其中有个很多人用的也用了很久的用以判断物种选择压力的数值,(Ka/Ks)。发现在国内的资料中比较少,即使有,也只是教大家如何的使用各种轮子去实现(我觉得这种真的是营养价值有限。。。)。
也许大家都在教科书上学习的原理吧,或者干脆就直接用现成的轮子也不用管原理,但我还是相信有需要了解原理的人,这里综合一下外网的资料写一下这个数值的计算和需要注意的地方。
正文
总体来说,即非同义突变的数量/非同义突变位置的数量(Ka)、除以、同义突变的数量/同义突变位置的数量。(英文的定义的话即the ratio of the number of nonsynonymous substitutions per non-synonymous site (pN) to the number of synonymous substitutions per synonymous site (pS))从这一开始就可以提出一个疑问。
位置的数量是什么???
所以这就是Ka/Ks的稍稍难点的地方,因为难以顾名思义去理解。另外,Ka/Ks又叫dN/dS,意思是差不多的,还有p开头的。叫法多样,需要留意。
原理
位置数目
直接开始说如何计算这个值。
假设有一个密码子CGG,现在要计算该密码子的非同义突变位置的数目。
MUTATION | CODON | AA | TYPE | N-SITES |
---|---|---|---|---|
CGG | Arg | |||
Position 1 (C->A) | AGG | Arg | Synonymous | 0 |
Position 1 (C->G) | GGG | Gly | Nonsynonymous (missense) | 1/3 |
Position 1 (C->T) | TGG | Trp | Nonsynonymous (missense) | 1/3 |
Position 2 (G->A) | CAG | Gln | Nonsynonymous (missense) | 1/3 |
Position 2 (G->C) | CCG | Pro | Nonsynonymous (missense) | 1/3 |
Position 2 (G->T) | CTG | Leu | Nonsynonymous (missense) | 1/3 |
Position 3 (G->A) | CGA | Arg | Synonymous | 0 |
Position 3 (G->C) | CGC | Arg | Synonymous | 0 |
Position 3 (G->T) | CGT | Arg | Synonymous | 0 |
从上表可以看出,对一个密码子,需要考虑所有3个位置发生1个突变时的所有可能性,并从所有的可能性中计算对应的N-SITES(注意这里的N-SITES是该位置的突变的概率)这个计算过程其实就是期望
)
对一整个序列的话,自然是从起始密码子开始,遍历所有密码子并计算所有的n
与s
。
突变数目
如何从SNP转化成同义突变或者非同义突变的数目呢??
自然也要仿造上述的期望的计算。
若计算从TTT转化成GAC的突变数目。SNP的话,自然是3个,但是仍然需要遍历所有的突变途径,去计算发生的同义\非同义突变的数目。
TTT (phe) -> TTC (phe) -> TAC (tyr) -> GAC (asp): 2n and 1s
TTT (phe) -> TTC (phe) -> GTC (val) -> GAC (asp): 2n and 1s
TTT (phe) -> TAT (tyr) -> TAC (val) -> GAC (asp): 3n
TTT (phe) -> TAT (tyr) -> GAT (asp) -> GAC (asp): 2n and 1s
TTT (phe) -> GTT (val) -> GTC (val) -> GAC (asp): 2n and 1s
TTT (phe) -> GTT (val) -> GAT (asp) -> GAC (asp): 2n and 1s
以上的突变数目就是
非同义突变数目:(2+2+3+2+2+2)/6 = 2.1666
同义突变数目:(1+1+1+1+1)/6 = 0.833333
(基本假设应该是:每一个突变都是有前后关系的,所以可以枚举中间的所有突变途径)
最后
最后可以得到一个dN/dS的结果。
但是。。。似乎Ka/Ks和dN/dS不完全一致,dN/dS属于Ka/Ks的一种,因为按照上述的计算过程,需要较多较大的枚举,如果启动密码子不固定的情况,计算量也就变得更大了,对于一个基因组而言是比较昂贵的。
Ka/Ks的解释
假设这个基因没有受到自然选择压力,那么根据中性选择理论,非同义替换率和同义替换率应该是相同的。
一般来讲,因为非同义替换会造成氨基酸变化,可能会改变蛋白质的构象和功能,因此会造成适应性的变化,从而带来自然选择的优势或劣势(一般是劣势)。而非同义替换没有改变蛋白质的组成,因此不受自然选择的影响(当然这里我们忽略密码子偏好性的影响),那么Ks就能反映进化过程的背景碱基替换率。Ka/Ks的比值就能说明这个基因是受到了何种选择。
一般情况下,在某个个体中偶然发生的一个碱基替换(突变),如果没有额外的好处或者坏处的话,慢慢地也就消失了。但是自然选择中会有很多巧合,某些突变就是很幸运地被保留了下来,并且被固定了(突变频率由极小变为100%)。一个这样的突变在一个二倍体种群中被固定的可能性为1/2N,其中N是种群大小。
对于一个没有受到自然选择压力的基因来说,我们可以计算得到这样的结果:Ka/Ks=1。但实际情况下,这个比值都是远小于1的:Ks/Ks<<1,因为一般非同义替换带来的都是有害的性状,只有极少数情况下会造成进化上的优势。
Ka>>Ks或者Ka/Ks >> 1,基因受正选择(positive selection)
Ka=Ks或者Ka/Ks=1,基因中性进化(neutral evolution)
Ka<<Ks或者Ka/Ks << 1,基因受纯化选择(purify selection)