中性理论
中性理论认为,我们今天观察到的遗传变异——无论是种内多态性还是种间分歧,均不取决于自然选择所驱动的有利突变的固定,而是取决于那些中性突变的随机固定。
- 大多数突变是有害的,会被净化选择所清除
- 核苷酸置换率等于中性突变率
- 功能较重要的基因或基因区域的进化较慢
同义替换与非同义替换
- 不导致氨基酸改变的核苷酸变异我们称为同义置换,反之则称为非同义置换。
-
一般认为,同义置换不受自然选择,而非同义置换则受到自然选择作。
正选择分析
- dn (Ka): 平均每个非同义位点上发生非同义置换的数目,一般简称非同义置换率;
- ds (Ks): 平均每个同义位点上发生同义置换的数目,一般简称同义置换率;
- ω : 非同义/同义置换率的比率, ω = dn/ds
若将同义置换率作为基准点,我们可以推断自然选择在非同义置换固定过程中是起推动还是阻碍作用。非同义/同义置换率的比率可在蛋白质水平度量选择压力.
ω=dN/dS 的值用来检测基因是否受到正选择:
- ω明显大于1,基因受到正选择;
- ω接近1,基因受到中性选择;
- ω明显小于1,基因受到纯化选择。
正选择分析模型-codeml
功能蛋白上大多数位点在大部分进化时间都是受约束的,即使发生正选择也只能影响几个位点,且只是偶尔发生。考虑不同位点间或支系间的ω 值不同, codeml里常用的模型如下:
- 分枝模型(branch model):假设不同枝上受到选择压力不同
- 位点模型(site model):假设不同氨基酸位点受的选择压力不同
- 分枝-位点模型(branch site model):假设不同氨基酸位点和不同支系间受的选择压力均存在差异(既考虑位点间也考虑支系间的 ω 值存在差异)
- 进化枝模型(clade model):同时检测多个进化枝
常用软件:
https://github.com/BioEasy/EasyCodeML
http://abacus.gene.ucl.ac.uk/software/paml.html
参考脚本
准备数据:两个物种的cds序列和蛋白
# diamond 比对 并筛选直系同源基因对
wgd dmd --eval 1e-10 -o dmd_out --nostrictcds 1.cds.fasta 2.cds.fasta
cp dmd_out/*.rbh ./homo_pairs.txt
#合并cds和蛋白序列
cat 1.cds.fasta 2.cds.fasta > input_cds.fasta
cat 1.pep.fasta 2.pep.fasta > input_pep.fasta
# 蛋白比对转cds
ParaAT_mdf.pl -h homo_pairs.txt -a input_pep.fasta -n input_cds.fasta \
-p proc.txt \ #线程数(写到文本文件里面)
-o align_out -m muscle -f axt
cat align_out/*.axt > merge_align.axt
# 计算 kaks
KaKs_Calculator -m YN \ #指定模型
-i ./merge_align.axt -o result.txt