TOOL:Dsuite--基因渗入分析工具

2020年新发表的文章,把基因渐渗工具分为几类。

1. Dsuite的安装 参考地址

cd ~/software/Dsuite
git clone https://github.com/millanek/Dsuite.git
cd Dsuite
make

测试命令 ./Build/Dsuite
添加环境变量

echo 'export PATH=$HOME/software/Dsuite/Dsuite/Build:$PATH' >>~/.bashrc
source ~/.bashrc
Dsuite #测试命令即可运行

2. 输入文件

  • call snp和indel的vcf文件,可以是压缩后的
  • 群体/物种图(SETS.txt),一个文本文件,每行代表一个个体,和其所属的物种/种群名称,如下所示。

测试文件下载

VCF file (此文件48M,使用XDM下载只要2min)

wget http://cichlid.gurdon.cam.ac.uk/Malinsky_et_al_2018_LakeMalawiCichlids_scaffold_0.vcf.gz
wget下载太慢了。

群体文件sets.txt

wget http://cichlid.gurdon.cam.ac.uk/sets.txt
sets.txt的文件格式如下

Placidochromis_cf_longimanus_1  Placidochromis_cf_longimanus
Placidochromis_cf_longimanus_2  Placidochromis_cf_longimanus
Placidochromis_cf_longimanus_3  Placidochromis_cf_longimanus
Placidochromis_cf_longimanus_4  Placidochromis_cf_longimanus
Placidochromis_cf_longimanus_5  Placidochromis_cf_longimanus
Placidochromis_milomo   Placidochromis_milomo
Placidochromis_subocularis_1    Placidochromis_subocularis
Placidochromis_subocularis_2    Placidochromis_subocularis
Placidochromis_subocularis_3    Placidochromis_subocularis
Placidochromis_subocularis_4    Placidochromis_subocularis
Placidochromis_subocularis_5    Placidochromis_subocularis
Placidochromis_subocularis_6    Placidochromis_subocularis
Placidochromis_subocularis_7    Placidochromis_subocularis
Placidochromis_subocularis_8    Placidochromis_subocularis
Nbrichardi      Outgroup
群体文件sets.txt要求

左边是vcf里面对应的样本名称,右边是群体名称/品种名称(Population/species ),必须要有至少一行,右侧是Outgroup,如果vcf里面某个材料不想加入分析,右侧可使用xxx代替群体名称。


可选文件:

  • Newick格式的树。
    树应具有与物种/种群名称相对应的叶子标签。分支长度可以存在,但不使用。
    有效的例子:
    (Species2,(Species1,(Species3,Species4)));
    (Species2:6.0,(Species1:5.0,(Species3:3.0,Species4:4.0)));
  • Dinvestigate使用的test_trios.txt文件。
    每行一个三人口/种,由标签按顺序分隔P1 P2 P3:
    Species1 Species2 Species3
    Species1 Species4 Species2
    ... ... ...

3. 运行

使用测试文件

3.1 使用Dtrios

Dsuite Dtrios  Malinsky_et_al_2018_LakeMalawiCichlids_scaffold_0.vcf.gz sets.txt

生成文件

-rw-r--r-- 1 chaim bioinf 7.9M Sep 3 23:19 sets_BBAA.txt
-rw-r--r-- 1 chaim bioinf 3.2G Sep 3 23:19 sets_combine_stderr.txt
-rw-r--r-- 1 chaim bioinf 8.0M Sep 3 23:19 sets_combine.txt
-rw-r--r-- 1 chaim bioinf 7.9M Sep 3 23:19 sets_Dmin.txt

3.2 使用Dinvestigate-对D显着升高的三重奏进行后续分析:在沿基因组的窗口中计算D,f_d和f_dM

(可选工具,需要有可选分组的文件)

Dsuite Dinvestigate [OPTIONS] Malinsky_et_al_2018_LakeMalawiCichlids_scaffold_0.vcf.gz  sets.txt test_trios.txt

3.3 Fbranch-一种启发式方法,旨在帮助解释许多相关的f4比率结果

(可选工具,需要有可选分组的文件)

Dsuite Fbranch [OPTIONS] TREE_FILE.nwk FVALS_tree.txt > fbranch.txt

4.分析Dtrios的输出文件

查看输出的文件
head -3 sets_Dmin.txt

P1 P2 P3 Dstatistic Z-score p-value f4-ratio BBAA ABBA BABA
Alticorpus_macrocleithrum Alticorpus_geoffreyi A_calliptera 0.00562169 0.447147 0.327385 0.00349955 4233.37 1722.86 1703.6

Aulonocara_minutus Alticorpus_geoffreyi A_calliptera 0.0084396 0.694493 0.243687 0.00516657 4314.48 1702.72 1674.22

5. Dsuite输出结果的解读

D - statistics (Dstat file):

含义:D - statistics 是 Dsuite 的核心输出之一,用于检测基因渐渗。它通过比较四个分类单元(通常是四个群体或物种)来评估基因流是否存在于其中。计算基于等位基因频率和系统发育关系。
解读示例:如果D值显著不为零(通过适当的统计检验来判断显著性,如Z - test),则表明可能存在基因渐渗。例如,假设有群体 A、B、C 和 D,D(A,B;C,D)的计算中,若D > 0,可能暗示基因从群体 C 或 D 流向了 A 或 B;若D < 0,则可能是相反的基因流方向。

f - statistics (fbranch file):

含义:f - statistics 是另一个重要的输出,用于衡量群体之间的遗传分化和基因流。它基于树状结构的模型,其中f值可以表示分支长度的相对变化,这些分支长度反映了群体之间的遗传距离和基因流动的历史。
解读示例:f值的范围在 - 1 到 1 之间。f = 0表示没有基因流的中性分化情况。如果f > 0,表示在给定的分支上存在基因流的减少或者分化的增加;如果f < 0,则暗示基因流的增加或者分化的减少。例如,在分析不同亚种之间的关系时,较低的f值可能表示它们之间有较多的基因交流。

Dfoil statistics (Dfoil file):

含义:Dfoil统计量是 Dsuite 用于分析更复杂的基因渐渗模式的扩展统计量。它涉及五个分类单元,能够更精细地检测和定位基因渐渗事件发生的位置。
解读示例:类似于D - statistics,显著的Dfoil值表明基因渐渗。例如,在分析一个包含物种 A、B、C、D 和 E 的数据集时,Dfoil(A,B;C,D,E)的非零值可以帮助确定基因流是否从 C、D 和 E 中的一个或多个群体流向 A 或 B,并且可以结合系统发育关系和其他统计量来进一步理解这种基因流的模式。

  1. D(ABBA - BABA)统计量

    • 含义
      • 在群体遗传学中,D(ABBA - BABA)是一种用于检测基因渐渗(introgression)的统计量。假设存在四个群体,分别标记为P1、P2、P3和P4。“ABBA”和“BABA”是指在基因组位点上观察到的等位基因分布模式。
      • 例如,在一个位点上,如果P1和P3共享一个等位基因(A),P2和P4共享另一个等位基因(B),这就是“ABBA”模式;反之,如果P1和P4共享一个等位基因,P2和P3共享另一个等位基因,就是“BABA”模式。D(ABBA - BABA)统计量通过比较这两种模式在基因组中的频率差异来推断基因流。
    • 解读
      • 当D(ABBA - BABA) = 0时,这是符合没有基因渐渗的中性进化模型预期的情况,即两种等位基因分布模式(ABBA和BABA)的频率相同。
      • 如果D(ABBA - BABA)显著大于0,这表明存在偏向于“ABBA”模式的基因渐渗,可能暗示基因从P3或P4流向P1或P2。相反,如果D(ABBA - BABA)显著小于0,则偏向于“BABA”模式,可能表示相反方向的基因流。
  2. f_d统计量

    • 含义
      • f_d是衡量基因流和分化的一个指标。它与群体之间的分支长度和等位基因频率变化有关。在系统发育框架下,它考虑了基因流对群体分化的影响。
      • 具体来说,f_d统计量的计算涉及到比较不同群体在系统发育树中的位置以及它们之间的基因共享模式,反映了基因流如何改变了原本预期的群体分化模式。
    • 解读
      • f_d = 0通常表示没有基因流影响的中性分化情况,即群体按照没有基因交流的预期模式进行分化。
      • 当f_d > 0时,这意味着在考虑的群体分支上基因流减少或者分化程度增加,可能是由于地理隔离、生态位分化等因素导致基因交流减少。
      • 当f_d < 0时,表明基因流增加或者分化程度减少,这可能是因为存在杂交、基因渐渗等事件,使得群体之间的遗传差异变小。
  3. f_dM统计量

    • 含义
      • f_dM是f_d统计量的一种变体,它在计算中考虑了更多关于群体内部遗传多样性和基因流的因素。M可能代表某种模型(Model)或者修正(Modification),具体取决于Dsuite的实现细节。
      • 它可能更侧重于考虑群体内部的遗传结构以及基因流对这种结构的影响,在评估基因流对群体分化的综合作用时提供更细致的视角。
    • 解读
      • 与f_d类似,f_dM = 0表示一种符合中性模型预期的情况,没有受到特殊基因流模式影响的群体分化状态。
      • f_dM的正值或负值同样表示基因流的减少或增加对群体分化的影响,但其具体数值和变化趋势需要结合数据和研究的具体背景来解读,因为它对群体内部的遗传结构因素更为敏感。
  4. d_f统计量

    • 含义
      • d_f统计量也是用于评估群体之间基因流和分化关系的指标。它与f_d统计量相关,但可能在计算方式或侧重点上有所不同。
      • 它可能更关注基因流事件如何改变了群体之间的遗传距离(通过某种函数关系d),并以此来推断基因流对群体分化的影响。
    • 解读
      • 当d_f = 0时,符合没有基因流改变群体遗传距离的预期情况。
      • d_f的正值表示基因流导致了群体遗传距离的增加(可能是由于不对称的基因流或者基因流引发的其他因素导致群体分化加剧),负值表示基因流使得群体遗传距离减小(可能是因为基因渐渗等事件使得群体之间的亲缘关系更紧密)。

这些统计量在解释群体之间的基因流、分化以及进化关系时非常有用,但它们的解读需要结合研究的具体群体、基因组区域以及其他生物学证据来综合判断,同时还要考虑统计显著性检验的结果。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,222评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,455评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,720评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,568评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,696评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,879评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,028评论 3 409
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,773评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,220评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,550评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,697评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,360评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,002评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,782评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,010评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,433评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,587评论 2 350