OrthoFinder寻找同源基因

OrthoFinder可快速进行直系同源基因的搜索,并进行建树

1、 安装

conda create -n orthofinder -c bioconda orthofinder=2.2.7

2、简单使用

减压软件后,在目录有测试数据可是进行测试,ExampleData文件中包含蛋白序列(fa)作为输入。

orthofinder -f ExampleData -S mmseqs
# -f 指定文件夹
# -S 指定序列搜索程序,有blast(默认), mmseqs, blast_gz, diamond可用
# -t 线程数 (默认值为16)
# -a 序列分析使用的线程数 (默认值为1)
# -M 基因树推断方法(默认为dendroblast)可选:dendroblast ,msa
# -A 多序列联配方式,该选项仅当 -M msa 选项时才有效(默认为mafft)可选:muscle, mafft
# -T 建树方式,该选项仅当 -M msa 选项时才有效 (默认为fasttree)可选:iqtree, raxml-ng, fasttree, raxml
# -s 输入特定的根物种树

如果想更改建树中的bootstrap,可对config.json文件进行修改,如果用conda安装,则在其bin目录下。

如要在iqtree建树过程中增加bootstrap, 则在iqtree的"cmd_line":中添加
-bb 1000 (iqtree的超快bootstrap)或 -b 1000(传统bootstrap)

3、结果查看

结果完成后,在ExampleData 下得到一个Results_Dec16文件夹,后面为运行日期

打开Orthologues_Dec16文件夹后
可以看到

SpeciesTree_rooted.txt 从所有包含STAG支持的直系同源组推断的STAG物种树
SpeciesTree_rooted_node_labels.txt  同上,只不过多了一个标签信息,用于解释基因重复数据。

OrthoFinder默认使用DendroBLAST发育树,也就是根据序列相似度推断进化关系。这是作者推荐的方法,在损失部分准确性的前提下提高了运算效率。当然你可以用-M msa从多序列比对的基础上进行基因树构建。如果你先用了默认的DendroBLAST,想测试下传统的MSA方法,那么也不需要重头运行,因为有一个-b参数可以在复用之前的比对结果。在物种发育树的推断上,OrthoFinder使用STAG算法,利用所有进行构建系统发育树,而非单拷贝基因。此外当使用MSA方法进行系统发育树推断时,OrthoFinder为了保证有足够多的基因(大于100)用于分析,除了使用单拷贝基因外,还会挑选大部分是单拷贝基因的直系同源组。这些直系同源组的基因前后相连,用空缺字符表示缺失的基因,如果某一列存在多余50%的空缺字符,那么该列被剔除。最后基于用户指定的建树软件进行系统发育树构建。结果在"WorkingDirectory/SpeciesTree_unrooted.txt" 使用STRIDE算法从无根树中推断出有根树, 结果就是"SpeciesTree_rooted.txt".

参考

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容