Consel教程

介绍Consel系统发育检测软件的使用教程。

1. 简介

系统发育是一种历史过程,任何基于分子数据集得到的发育树都是对真实系统发生的推测。一个合理地假设,总是应该接收来自各种证据的检验。

系统发育假设检验(phylogenetic hypothesis testing)是用统计学方法检验两个或多个不同发育树的差异是否有统计学上的显著性。系统发育检验需要数据集、模型、两棵以上的发育树。已有有大量的检验方法,主要包括频率检验或者贝叶斯检验。一般来说,检验方法包括Approximately unbiased test,Approximate Bayesian posterior probability test,bootstrap probability test,Kishino-Hasegawa test,weighted Kishino-Hasegawa test,Shimodaira-Hasegawa test和weighted Shimodaira-Hasegawa test等。常用的为Approximately unbiased test (AU)和Kishino-Hasegawa test (KH)

黄原. (2012). 分子系统发生学. 科学出版社. pp 381-393.

多个软件都可以用于执行这种检验,如 PAUP,TREE-PUZZLE等。此处,我们介绍consel 01j.

Shimodaira, H., & Hasegawa, M. (2001). CONSEL: for assessing the confidence of phylogenetic tree selection. Bioinformatics, 17(12), 1246-1247.

2. 数据准备

输入文件是一个包含各位点对数似然值 (per site log-likelihood)的文本,该文本可以直接来自与常用的系统发育软件。此处以RXaML-master 8.2.0 为例。

此处与常用的快速自展分析(-f a)不同,计算各位点对数似然值需要在 -f G (g)进行,同时仍需要fas文件和一个包含不同拓扑结构的文本文件。

具体命令如下:

raxmlHPC -s consel.fas -m GTRGAMMA -f G -z trees.txt -n puzzle

注:计算per site log-likelihood时,RXaML并不支持GTRCAT模型,仅GTRGAMMA被支持。

包含不同拓扑结构的文本通过 -z参数输入,具体格式如下:

((1,(2,3)),4,(5,6));
(1,4,((2,3),(5,6)));
(1,((2,3),4),(5,6));
(1,(4,5),((2,3),6));
((1,(2,3)),(4,5),6);
(1,((2,3),(4,5)),6);

RXaML运行结束后会直接生成一个puzzle格式的文件,其中记录了per site log-likelihood.

3. 系统发育检验

系统发育检测在consel中完成。

3.1 consel的安装和运行

consel的安装和运行基本和RXaML-master一致,该软件并没有运行界面。将下载好的consel安装包解压后放置C盘桌面。然后打开cmd,输入cd+consel文件夹所在路径。注意路径应直接转到bin文件夹下。

C:\Users\zz> cd C:\Users\zz\Desktop\consel 01j\bin

C:\Users\zz\Desktop\consel 01j\bin>

此处已设置好运行环境,将puzzle文件拷入到 ...\bin\ 下后即可开始运算。

3.2 系统发育检测

3.2.1 读取puzzle文件

C:\Users\zz\Desktop\consel 01j\bin> seqmt --puzzle consel.puzzle

# $Id: seqmt.c,v 1.5 2007/03/24 00:57:18 shimo Exp $
# reading consel.puzzle
# M:5 N:1906
# writing consel.mt

3.2.2 生成rmt文件

C:\Users\zz\Desktop\consel 01j\bin>makermt --puzzle consel.puzzle
# $Id: makermt.c,v 1.15 2007/03/24 00:57:22 shimo Exp $
# seed:0 (MT19937 generator)
# K:10
# R:0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4
# B:10000 10000 10000 10000 10000 10000 10000 10000 10000 10000
# reading consel.puzzle
# M:5 N:1906
# writing consel.vt
# writing consel.rmt
# start generating total 100000 replicates for 5 items..........
# time elapsed for bootstrap t=9.658 sec
# exit normally

此步骤可能较慢,需耐心等待。

3.2.3 进行系统发育检验

结果记录在.pv文件中。

C:\Users\zz\Desktop\consel 01j\bin> consel consel.rmt
# $Id: consel.c,v 1.19 2004/11/11 08:14:09 shimo Exp $
# reading consel.rmt..........
# K:10
# R:0.5 0.599685 0.699895 0.79958 0.89979 1 1.09969 1.1999 1.29958 1.39979
# B:10000 10000 10000 10000 10000 10000 10000 10000 10000 10000
# M:5
# generate the identity association
# CM:5
# MC-TEST STARTS
# centering the replicates
# calculating kh-pvalue.....
# calculating mc-pvalue.....
# calculating the variances.....
# calculating weighted kh-pvalue.....
# calculating weighted mc-pvalue.....
# MC-TEST DONE
# calculate replicates of the statistics..........
# BP-TEST STARTS - DONE
# AU-TEST STARTS
# sorting the replicates..........
# calculating approximately unbiased p-values by MLE (fast) fitting.....
# time elapsed for AU test is t=0.015 sec
# ALPHA:0.05 0.1 0.5 0.9 0.95
# calculating confidence intervals.....
# AU-TEST DONE
# writing consel.pv
# writing consel.ci
# exit normally

3.2.4 结果可视化

C:\Users\zz\Desktop\consel 01j\bin>catpv consel.pv

# reading consel.pv
# rank item    obs     au     np |     bp     pp     kh     sh    wkh    wsh |
#    1    1  -12.7  0.957  0.911 |  0.911  1.000  0.910  0.982  0.910  0.995 |
#    2    4   12.7  0.114  0.064 |  0.065 3e-006  0.090  0.452  0.090  0.272 |
#    3    5   21.6  0.035  0.021 |  0.022 4e-010  0.043  0.292  0.043  0.113 |
#    4    3   27.7  0.003  0.003 |  0.003 9e-013  0.021  0.200  0.021  0.056 |
#    5    2  203.6 7e-007 5e-006 |      0 4e-089      0      0      0      0 |

此结果即为文献中展示的结果。

4. 结果解读

结果的解释涉及到对p值的理解,我也不懂......

开个玩笑,不懂当然是不懂,然而我还是尝试去理解一下。每个p值代表当前数据集对某一拓扑结构在该种test下的支持程度,p值越高,当前拓扑结构的可靠性就越大。如果p值<0.05,则说明该拓扑结构被显著拒绝。(当然严格来说,p值>0.05时,一般不认为不同高低的p值对应不同的支持程度。)

有关p值的解释和讨论见于下述链接:

https://www.zhihu.com/question/21195469

https://en.wikipedia.org/wiki/P-value

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容