【群体遗传】Treemix四倍体分析 & 最优m值选择

距离上一次写博客,已经是上一次了。

之前已经有生信菜鸟团前辈写过关于Treemix的分析,但值得关注的是,现在的软件大部分都只适用于二倍体,那今天介绍一下四倍体怎么进行Treemix分析以及如何选择最优m值。

首先,还是对Treemix做一个简要的介绍:Joseph Pickrell和Jonathan Pritchard于2012年,发表在Nature Precedings上的文章《Inference of population splits and mixtures from genome-wide allele frequency data》中的一个算法 & 软件,利用allele frequency构建最大似然树。

(1)软件安装

# 简单粗暴一点吧
conda install treemix

对一些参数做个简要介绍:

-k         # 奖长度为n的窗口内的所有SNP,当作一个整体用于分析
-root      # 设定最大似然树的根(一般是外类群)
-g         # 提供vertices.gz和edges.gz文件,作为目前分析的基础,即在之前分析的基础上,继续提升基因流的次数
-bootstrap # 取子集,进行最大似然树的构建

(2)输入文件生成

这一步:如何成为一个及格过线的调包侠。

调用ScanTools工具包中的conversionTreemixMajda.py,就可以得到用于Treemix分析的输入数据。由于ScanTools工具包在分析过程中,会对VCF文件进行格式转换,而且无法直接使用ScanTools,因此就需要手动进行一些操作,大致流程为:

image.png
python conversionTreemixMajda.py -i "allele_table/" -o "allele_table/" 
# 最终得到treemix_input.table.gz

(3)Treemix运行

for i in {0..10}
    do
    for j in {1..10}
        do
        treemix -i treemix_input.table.gz -root Outgroup -k 500 -m ${i} -bootstrap -o migration_${i}_bootstrap_${j}
    done
done

多个m值以及需要多次bootstrap的情况下,还是推荐并行运行,使用for循环所需的运行时间太久了。

(4)使用OptM判断最优m值

在进行Treemix分析时,Treemix作者推荐当构建的model能够解释99.8%的数据时(用该算法计算出来的协方差矩阵作为衡量标准),便可以停止添加migration edge。但是在真实的情况下,99.8%这个数值非常难达到,而且当所使用的数据中非纯合群体数目相较于纯合群体数目更多,Treemix更倾向于缩短纯合群体的branch length,而不是推测真实情况下存在的基因流事件(也就是说,在上述情况下,Treemix更加倾向于将事实简单化,99.8%变成了“永远也达不到的真实”)。

关于这部分,我个人的理解是:当分析的数据中,存在比较古老的基因流事件时,且source为较早分化出来的population,Treemix倾向于缩短该population的branch length(从而导致模型的似然值下降),但于此同时,模型在admixed population中添加migration edges,又增加了模型的似然值,从而达到“拆东墙,补西墙”。。。
【branch length,是covariance matrix中的数值】

OptM则从另一个角度对最优m进行判断(实际上,OptM选择的是给定基因流次数范围内的相对最优m)。作者通过构建Δm(要求同一m值,进行多次bootstrap运算),利用模型之间似然值的变化速率判断最优m值。
Δm = \frac{L{''}(m)}{σL(m)}
Δm达到最大值时,该条件下的m为最优m值。

image.png

在R中,基本使用方法如下:

library(OptM)
dat <- optM("treemix_results")   # treemix_results为Treemix分析结果文件夹,包含每一次运行的llik、modelcov.gz等文件

# 判断哪一个m是最优的
plot_optM(dat, method = "Evanno", plot = TRUE, pdf = "OptM.pdf")

(5)Treemix结果图绘制 & 解读

Treemix结果可视化,使用Treemix的自带R脚本:plotting_funcs.R

library(RColorBrewer)
library(R.utils)
source("plotting_funcs.R")

# 绘制Treemix graph
for (i in 1:10){
  pdf(paste('migration_m_bt_', i, '.pdf', sep = ""), width = 14, height = 7)
  plot_tree(paste('treemix_results/migration_m_bt_', i, sep=""))
  plot_resid(paste('treemix_results/migration_m_bt_', i, sep=""), 'poplist.txt')
  dev.off()
}

此处对残差值进行一个简要说明:

  • 当残差为正值时(observed value>estimated value),表示对应population之间的关系被模型所低估(两个population之间有introgression可能符号真实情况)
  • 当残差为负值(observed value<estimated value),表示Treemix构建的最大似然树高估了对应population之间的关系(两个population没有introgression更符合真实情况)

同时,也可以使用get_f()函数得到模型对使用数据的解释。

对于残差热图绘制的截图,已经有前辈做了非常好的介绍,我这边就不再赘述。

参考文献

[1] Inference of population splits and mixtures from genome-wide allele frequency data
[2] OptM : estimating the optimal number of migration edges on population trees using Treemix
[3] Detecting the number of clusters of individuals using the software STRUCTURE: A simulation study
[4] 群体遗传系列之:一文了解和使用Treemix来研究群体之间的基因流

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,496评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,407评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,632评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,180评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,198评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,165评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,052评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,910评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,324评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,542评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,711评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,424评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,017评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,668评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,823评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,722评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,611评论 2 353

推荐阅读更多精彩内容