看2020年新发表的文章,把基因渐渗工具分为几类。
- 第一类基于种间群体基因频率变异分析 (Fst, LD, STRUCTURE, AFS, TreeMix)和
- 第二类基于种间DNA序列差异分析(ABBA-BABA, IM, IIM, ABC) 方法,
常用的分析基因渗入的工具有:
MixMapper,TreeMix 和 TARGet ,shapiet(人类),Dsuite
Dsuite又称为ABBA BABA test。
Dsuite github教程
Dsuite 中文教程
使用plink将vcf转换成treeMix可以使用的格式
1. Dsuite的安装 参考地址
cd ~/software/Dsuite
git clone https://github.com/millanek/Dsuite.git
cd Dsuite
make
测试命令 ./Build/Dsuite
添加环境变量
echo 'export PATH=$HOME/software/Dsuite/Dsuite/Build:$PATH' >>~/.bashrc
source ~/.bashrc
Dsuite #测试命令即可运行
2. 输入文件
- call snp和indel的vcf文件,可以是压缩后的
- 群体/物种图(SETS.txt),一个文本文件,每行代表一个个体,和其所属的物种/种群名称,如下所示。
测试文件下载
VCF file (此文件48M,使用XDM下载只要2min)
wget http://cichlid.gurdon.cam.ac.uk/Malinsky_et_al_2018_LakeMalawiCichlids_scaffold_0.vcf.gz
wget下载太慢了。
群体文件sets.txt
wget http://cichlid.gurdon.cam.ac.uk/sets.txt
sets.txt的文件格式如下
Placidochromis_cf_longimanus_1 Placidochromis_cf_longimanus
Placidochromis_cf_longimanus_2 Placidochromis_cf_longimanus
Placidochromis_cf_longimanus_3 Placidochromis_cf_longimanus
Placidochromis_cf_longimanus_4 Placidochromis_cf_longimanus
Placidochromis_cf_longimanus_5 Placidochromis_cf_longimanus
Placidochromis_milomo Placidochromis_milomo
Placidochromis_subocularis_1 Placidochromis_subocularis
Placidochromis_subocularis_2 Placidochromis_subocularis
Placidochromis_subocularis_3 Placidochromis_subocularis
Placidochromis_subocularis_4 Placidochromis_subocularis
Placidochromis_subocularis_5 Placidochromis_subocularis
Placidochromis_subocularis_6 Placidochromis_subocularis
Placidochromis_subocularis_7 Placidochromis_subocularis
Placidochromis_subocularis_8 Placidochromis_subocularis
Nbrichardi Outgroup
群体文件sets.txt要求
左边是vcf里面对应的样本名称,右边是群体名称/品种名称(Population/species ),必须要有至少一行,右侧是Outgroup,如果vcf里面某个材料不想加入分析,右侧可使用xxx
代替群体名称。
可选文件:
- Newick格式的树。
树应具有与物种/种群名称相对应的叶子标签。分支长度可以存在,但不使用。
有效的例子:
(Species2,(Species1,(Species3,Species4)));
(Species2:6.0,(Species1:5.0,(Species3:3.0,Species4:4.0))); - Dinvestigate使用的test_trios.txt文件。
每行一个三人口/种,由标签按顺序分隔P1 P2 P3:
Species1 Species2 Species3
Species1 Species4 Species2
... ... ...
3. 运行
使用测试文件
3.1 使用Dtrios
Dsuite Dtrios Malinsky_et_al_2018_LakeMalawiCichlids_scaffold_0.vcf.gz sets.txt
生成文件
-rw-r--r-- 1 chaim bioinf 7.9M Sep 3 23:19 sets_BBAA.txt
-rw-r--r-- 1 chaim bioinf 3.2G Sep 3 23:19 sets_combine_stderr.txt
-rw-r--r-- 1 chaim bioinf 8.0M Sep 3 23:19 sets_combine.txt
-rw-r--r-- 1 chaim bioinf 7.9M Sep 3 23:19 sets_Dmin.txt
3.2 使用Dinvestigate-对D显着升高的三重奏进行后续分析:在沿基因组的窗口中计算D,f_d和f_dM
(可选工具,需要有可选分组的文件)
Dsuite Dinvestigate [OPTIONS] Malinsky_et_al_2018_LakeMalawiCichlids_scaffold_0.vcf.gz sets.txt test_trios.txt
3.3 Fbranch-一种启发式方法,旨在帮助解释许多相关的f4比率结果
(可选工具,需要有可选分组的文件)
Dsuite Fbranch [OPTIONS] TREE_FILE.nwk FVALS_tree.txt > fbranch.txt
4.分析Dtrios的输出文件
查看输出的文件
head -3 sets_Dmin.txt
P1 P2 P3 Dstatistic Z-score p-value f4-ratio BBAA ABBA BABA
Alticorpus_macrocleithrum Alticorpus_geoffreyi A_calliptera 0.00562169 0.447147 0.327385 0.00349955 4233.37 1722.86 1703.6
Aulonocara_minutus Alticorpus_geoffreyi A_calliptera 0.0084396 0.694493 0.243687 0.00516657 4314.48 1702.72 1674.22
5. Dsuite输出结果的解读
D - statistics (Dstat file):
含义:D - statistics 是 Dsuite 的核心输出之一,用于检测基因渐渗。它通过比较四个分类单元(通常是四个群体或物种)来评估基因流是否存在于其中。计算基于等位基因频率和系统发育关系。
解读示例:如果D值显著不为零(通过适当的统计检验来判断显著性,如Z - test),则表明可能存在基因渐渗。例如,假设有群体 A、B、C 和 D,D(A,B;C,D)的计算中,若D > 0,可能暗示基因从群体 C 或 D 流向了 A 或 B;若D < 0,则可能是相反的基因流方向。
f - statistics (fbranch file):
含义:f - statistics 是另一个重要的输出,用于衡量群体之间的遗传分化和基因流。它基于树状结构的模型,其中f值可以表示分支长度的相对变化,这些分支长度反映了群体之间的遗传距离和基因流动的历史。
解读示例:f值的范围在 - 1 到 1 之间。f = 0表示没有基因流的中性分化情况。如果f > 0,表示在给定的分支上存在基因流的减少或者分化的增加;如果f < 0,则暗示基因流的增加或者分化的减少。例如,在分析不同亚种之间的关系时,较低的f值可能表示它们之间有较多的基因交流。
Dfoil statistics (Dfoil file):
含义:Dfoil统计量是 Dsuite 用于分析更复杂的基因渐渗模式的扩展统计量。它涉及五个分类单元,能够更精细地检测和定位基因渐渗事件发生的位置。
解读示例:类似于D - statistics,显著的Dfoil值表明基因渐渗。例如,在分析一个包含物种 A、B、C、D 和 E 的数据集时,Dfoil(A,B;C,D,E)的非零值可以帮助确定基因流是否从 C、D 和 E 中的一个或多个群体流向 A 或 B,并且可以结合系统发育关系和其他统计量来进一步理解这种基因流的模式。
-
D(ABBA - BABA)统计量
-
含义:
- 在群体遗传学中,D(ABBA - BABA)是一种用于检测基因渐渗(introgression)的统计量。假设存在四个群体,分别标记为P1、P2、P3和P4。“ABBA”和“BABA”是指在基因组位点上观察到的等位基因分布模式。
- 例如,在一个位点上,如果P1和P3共享一个等位基因(A),P2和P4共享另一个等位基因(B),这就是“ABBA”模式;反之,如果P1和P4共享一个等位基因,P2和P3共享另一个等位基因,就是“BABA”模式。D(ABBA - BABA)统计量通过比较这两种模式在基因组中的频率差异来推断基因流。
-
解读:
- 当D(ABBA - BABA) = 0时,这是符合没有基因渐渗的中性进化模型预期的情况,即两种等位基因分布模式(ABBA和BABA)的频率相同。
- 如果D(ABBA - BABA)显著大于0,这表明存在偏向于“ABBA”模式的基因渐渗,可能暗示基因从P3或P4流向P1或P2。相反,如果D(ABBA - BABA)显著小于0,则偏向于“BABA”模式,可能表示相反方向的基因流。
-
含义:
-
f_d统计量
-
含义:
- f_d是衡量基因流和分化的一个指标。它与群体之间的分支长度和等位基因频率变化有关。在系统发育框架下,它考虑了基因流对群体分化的影响。
- 具体来说,f_d统计量的计算涉及到比较不同群体在系统发育树中的位置以及它们之间的基因共享模式,反映了基因流如何改变了原本预期的群体分化模式。
-
解读:
- f_d = 0通常表示没有基因流影响的中性分化情况,即群体按照没有基因交流的预期模式进行分化。
- 当f_d > 0时,这意味着在考虑的群体分支上基因流减少或者分化程度增加,可能是由于地理隔离、生态位分化等因素导致基因交流减少。
- 当f_d < 0时,表明基因流增加或者分化程度减少,这可能是因为存在杂交、基因渐渗等事件,使得群体之间的遗传差异变小。
-
含义:
-
f_dM统计量
-
含义:
- f_dM是f_d统计量的一种变体,它在计算中考虑了更多关于群体内部遗传多样性和基因流的因素。M可能代表某种模型(Model)或者修正(Modification),具体取决于Dsuite的实现细节。
- 它可能更侧重于考虑群体内部的遗传结构以及基因流对这种结构的影响,在评估基因流对群体分化的综合作用时提供更细致的视角。
-
解读:
- 与f_d类似,f_dM = 0表示一种符合中性模型预期的情况,没有受到特殊基因流模式影响的群体分化状态。
- f_dM的正值或负值同样表示基因流的减少或增加对群体分化的影响,但其具体数值和变化趋势需要结合数据和研究的具体背景来解读,因为它对群体内部的遗传结构因素更为敏感。
-
含义:
-
d_f统计量
-
含义:
- d_f统计量也是用于评估群体之间基因流和分化关系的指标。它与f_d统计量相关,但可能在计算方式或侧重点上有所不同。
- 它可能更关注基因流事件如何改变了群体之间的遗传距离(通过某种函数关系d),并以此来推断基因流对群体分化的影响。
-
解读:
- 当d_f = 0时,符合没有基因流改变群体遗传距离的预期情况。
- d_f的正值表示基因流导致了群体遗传距离的增加(可能是由于不对称的基因流或者基因流引发的其他因素导致群体分化加剧),负值表示基因流使得群体遗传距离减小(可能是因为基因渐渗等事件使得群体之间的亲缘关系更紧密)。
-
含义:
这些统计量在解释群体之间的基因流、分化以及进化关系时非常有用,但它们的解读需要结合研究的具体群体、基因组区域以及其他生物学证据来综合判断,同时还要考虑统计显著性检验的结果。