GitHub上对此描述的也是很详细: https://github.com/davidemms/OrthoFinder
一、下载安装
1.conda安装
conda install -c bioconda orthofinder
(本人第一次利用conda安装成功了,第二次可能是因为镜源连接不稳定等原因,安装不成功,第二次尝试了源码下载安装;也可能存在orthofinder与conda中的Python的版本不对应的情况,所以,查看orthofinder的安装环境)
2.源码下载安装
参考https://davidemms.github.io/orthofinder_tutorials/alternative-ways-of-getting-OrthoFinder.html
在ReadMe文件中,存在安装的方式,是依赖于其他软件的(MCL, FastME, DIAMOND/MMseqs2/BLAST+)(但可能在github下载的时候已经将这些都包含里面了,不需要再自行下载这些软件)。
*还存在一些问题,在使用的过程中,不知道为什么需要添加 ./ *
wget https://github.com/davidemms/OrthoFinder/releases/download/2.5.4/OrthoFinder.tar.gz
tar xzf OrthoFinder.tar.gz
./OrthoFinder/orthofinder -h ##运行帮助文档,查看是否安装成功
OrthoFinder/orthofinder -f OrthoFinder/ExampleData ###用里面的例子数据运行尝试
若是需要下载依赖的文件,参考https://www.jianshu.com/p/16e0bbb2ba19
二、基础使用
1.准备数据
准备没有isoform的蛋白数据(没有重复)(此处选择的是最长转录本数据),将数据放在一个新建的目录下data_pep,数据文件夹下至少需要两个文件:【若是存在query,则不要忘记添加query文件】
2.基础运行
基础的快速的运行:
orthofinder -f data_pep##可以添加上-t 200
###Run full OrthoFinder analysis on FASTA format proteomes in <dir>
## orthofinder [options] -f <dir>
简单的参数选择设置:
-t <int> Number of parallel sequence search threads [Default = 104]
-a <int> Number of parallel analysis threads
-d Input is DNA sequences
-M <txt> Method for gene tree inference. Options 'dendroblast' & 'msa'
[Default = dendroblast]
-S <txt> Sequence search program [Default = diamond]
Options: blast, diamond, diamond_ultra_sens, blast_gz, mmseqs, blast_nucl
-A <txt> MSA program, requires '-M msa' [Default = mafft]
Options: mafft, muscle
-T <txt> Tree inference method, requires '-M msa' [Default = fasttree]
Options: fasttree, raxml, raxml-ng, iqtree
通常采用的运行命令:
orthofinder -f data_pep -S diamond -M msa -T raxml -t 200 -a 200
三、报错
第一次使用出现了报错(系统对于用户打开文件数量的限制):
ERROR: The system limits on the number of files a process can open is too low.
For 240 species OrthoFinder needs to be able to open at least r=57700 files.
Please increase the limit and restart OrthoFinder
查看用户对于打开文件的限制;若需要改动则需要root对用户进行设置:增加系统对该进程打开的文件
ulimit -Hn #打开文件数量的硬限制
ulimit -Sn #打开文件数量的软限制
ulimit -n #允许当前用户进程打开的文件数限制
cat /proc/sys/fs/file-max #查看能够打开的文件的最大限制
正常情况下,用户可以设置Sn的最大值为Hn,ulimit -Sn 4096
若需要继续增加数值,则root进一步设置文件能够打开的最大的限制:
vim /etc/security/limits.conf # 在文件的最后添加一行
your_user_name hard nofile 57700
your_user_name soft nofile 57700
然后在编辑/etc/pam.d/login文件,在文件后边添加如下行:
session required /lib/security/pam_limits.so
四、结果分析
Citation.txt###若是引用OrthoFinder时,记得添加引用
Comparative_Genomics_Statistics###比较基因组
Gene_Duplication_Events
Gene_Trees
Log.txt###用的命令行和数据的名字等信息
Orthogroups###直系同源组目录
Orthogroup_Sequences###同源组的序列信息
Orthologues###直系同源
Phylogenetically_Misplaced_Genes
Phylogenetic_Hierarchical_Orthogroups
Putative_Xenologs
Resolved_Gene_Trees
Single_Copy_Orthologue_Sequences
Species_Tree