重测序分析(9)群体进化分析之构建进化树

1.进化树的概念

系统发育或系统发育树,是物种间、基因间、群体间乃至个体间谱系关系的一种表现形式。
Node:分支的连接点或者分枝的尖端都称为节点。内部节点连接分枝,外部节点代表分类单元。
Clade:一个祖先节点及其所有后代节点的组合称为一个分枝。
Branch Length:分枝长度,大多数情况下是分歧度,代表突变的累积。


根据是否指定了根节点,系统发育树可以分为有根树和无根树
无根树没有指定祖先节点,只能看出各个节点的拓扑结构和相对距离
有根数指定了根节点,反映了树上物种或基因的时间顺序,一般采用外群定根法,建树时引入亲缘关系较远的物种作为外群来定根
无根树

有根树

2.常用的建树方法

基于距离:
邻接法NJ(邻接连接将距离矩阵作为输入,指定每对分类群之间的距离。该算法以完全未解析的树开始,其拓扑对应于星型网络的拓扑,并迭代地将相邻点合并成新的点(相邻是指两个分类单位在某一无根分叉树中仅通过一个节点相连),直到树完全解析并且所有分支长度都已知。)
基于特征/性状:
最大简约法MP(计算所有可能的拓扑结构;计算出所需替代数最小的那个拓扑结构,作为最优树。)

最大似然法ML(选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树)

贝叶斯推算(用于枝长和后验概率联合计算)

3.软件和数据准备

软件:plink、phylip、tassel(用于格式转换)
数据:all.vcf、�all.LDfilter.vcf

4.构建进化树

进化树反映群体间个体的谱系关系,由于群体SNP位点一般较多,大多数项目中采用邻接法构树,也有部分项目使用最大似然法。

4.1SNP数据过滤

这一步过滤是为了保留高质量和多态性比较高的位点做后续的分析

#过滤missing和次等位基因频率 
plink --vcf  all.vcf  \
--geno 0.1  \#设置缺失率阈值
--maf 0.01  \#设置maf阈值
--out all.missing_maf  \#输出文件前缀
--recode vcf-iid   \#输出文件格式
--allow-extra-chr  \#允许其他格式序列名称
--set-missing-var-ids @:#  \#设置snp id名称
--keep-allele-order

#生成需要保留的位点文件
plink --vcf  all.missing_maf.vcf  \
--indep-pairwise 50 10 0.2  \ #LD过滤阈值
--out tmp.ld   \
--allow-extra-chr  \
--set-missing-var-ids @:#

#过滤 LD
plink --vcf  all.missing_maf.vcf  
--make-bed   \
--extract tmp.ld.prune.in   \
--out all.LDfilter  \
--recode vcf-iid  \
--keep-allele-order  \
--allow-extra-chr  \
--set-missing-var-ids @:#

最终文件:all.LDfilter.vcf

4.2使用 phylip软件 NJ 法构树

#将vcf转为phylip格式文件
run_pipeline.pl -Xms1G -Xmx5G  \
-importGuess  ./all.LDfilter.vcf  \
-ExportPlugin \
-saveAs sequences.phy \
-format Phylip_Inter

#生成dnadist需要的配置文件
echo -e "sequences.phy\nY" > dnadist.cfg

#运行dnadist生成距离矩阵文件
dnadist < dnadist.cfg  >dnadist.log

#生成neighbor程序需要的配置文件
mv outfile infile.dist
echo -e "infile.dist\nY"  > neighbor.cfg

#构建nj树
neighbor  <  neighbor.cfg  >nj.log

#整理结果格式
less infile.dist | tr '\n' '|'| sed 's/| / /g' | tr '|' '\n' >infile.dist.table
less outtree | tr '\n' ' '|sed 's/ //g' > outtree.nwk

结果文件:outtree.nwk

构建好的进化树以文本格式存储,可以使用各种进化树美化软件进行美化,如figtree、mega、ITOL、Evolview等等。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,591评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,448评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,823评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,204评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,228评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,190评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,078评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,923评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,334评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,550评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,727评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,428评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,022评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,672评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,826评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,734评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,619评论 2 354

推荐阅读更多精彩内容