一. 使用
- 一般命令
orthofinder -f ./file_dir/
# -f指定输入的 pep 文件所在目录
这个命令会使用系统可以使用的全部线程进行后续分析
- 一些参数
#nohup orthofinder -f ./faa -t 20 -a 20 -M msa -A mafft -T iqtree -S diamond > orthofinder.log &
## -f指定输入的faa文件所在目录
## -t指定比对线程;
## -a指定分析线程;
## -M指定推断基因树的方法: dendroblast(default)/msa; msa 表示多序列比对之后,使用最大似然法构建进化树;dendroblast 表示直接基于序列相似性构建进化树,速度非常快。
## -S指定比对软件: diamond(default)/blast/blast_gz/mmseqs/blast_nucl 选择默认 diamond 即可,速度最快。
## -A指定多序列比对(MSA)使用软件:mafft(default)/muscle;需要指定-M msa
## -T指定画树软件: fasttree(default)/raxml/raxml-ng/iqtree raxml-ng 速度很慢(7个基因组花了三天时间)。速度比较:fasttree >> iqtree > raxml-ng > raxml 准确性: raxml-ng >= iqtree > raxml > fasttree , raxml 最为经典。
- 中途运行的参数
# 开始运行
# 从中途运行的orthofinder不能并行多个项目,不然修改WorkingDirectory/SpeciesIDs.txt后,会在运行中途报错。
-f <dir>:从 FASTA 文件目录开始分析
-b <dir>:从 OrthoFinder 目录中的 BLAST 结果开始分析
-b <dir1> -f <dir2>:从 OrthoFinder dir1 中的 BLAST 结果开始分析并添加 FASTA 文件from dir2
-fg <dir>:从 orthogroups OrthoFinder 目录开始分析
-ft <dir>:从 OrthoFinder 目录中的基因树开始分析
# 结束运行
-op:在为全对全序列搜索准备输入文件后停止(例如 BLAST/DIAMOND)
-og:在推断正交群后停止
-os:在为正交群写入序列文件后停止(需要 '-M msa')
-oa:停止推断多张序列比对后orthogroups(需要“-M MSA”)
-ot:停止推断基因树orthogroups
使用 -b 参数时,在 OrthoFinder/Results_dir/WorkingDirectory
目录下,有一个 SpeciesIDs.txt
文件,可以在文件里面添加 #
来选择哪些物种需要分析,哪些不需要分析。#
表示当前物种不做分析。如:
#0: Angelica_sinensis.pep
#1: Apium_graveolens.pep
2: Aralia_elata_Seem.pep
#3: Coriandrum_sativum.pep
4: Daucus_carota.pep
5: Eleutherococcus_senticosus_CiWuJia.pep
6: Fatsia_Oligocarpella.pep
#7: Heracleum_sosnowskyi.pep
#8: Oenanthe_sinensis.pep
9: Panax_ginseng.pep
10: Panax_japonicus.pep
11: Panax_notoginseng.pep
12: Panax_quinquefolius.pep
13: Panax_stipuleanatus.pep
#14: Peucedanum_praeruptorum_Dunn.pep
#15: Pittosporum_balfourii.pep
#16: Pittosporum_senacia_subsp.pep
17: Polyscias_bisattenuata.pep
18: Polyscias_macgillivrayi.pep
19: Polyscias_racemosa.pep
20: Schefflera_Elliptica_Hawaii.pep
21: Schefflera_Elliptica_china.pep
22: Schefflera_Heptaphylla_china.pep
23: Schefflera_albidobracteata.pep
命令如下:
nohup orthofinder -b /home/bqxiao/data5/01.pan/15.orthofinder/faa3.0/OrthoFinder/Results_Jun01/WorkingDirectory > 五加科4n.log &
- 其他参数
-d:输入是 DNA 序列
-t <int>:用于序列搜索、MSA 和树推理的线程数 [默认为机器上的内核数]
-a <int>:用于内部、RAM 密集型任务的并行分析线程数[默认值 = 1]
-s <file>:用户指定的有根物种树
-I <int>:MCL 膨胀参数 [默认值 = 1.5]
-x <file>:以 OrthoXML 格式输出结果的信息
-p <dir>:将临时 pickle 文件写入 <dir>
-1:仅执行单向序列搜索
-X:不要将物种名称添加到输出文件中的序列 ID
-y:将 HOG 根部下方的旁系同源进化枝拆分为单独的 HOG
-z:不修剪 MSA(列数>=90% 间隙,最小对齐长度 500)
-n <txt>:添加到结果目录的名称
-o <txt>:非默认结果目录
-h:打印这个帮助文本
二. 结果文件
基因家族扩张与收缩分析及物种进化树构建(上)
其中Orthogroups文件夹下面为查找的同源基因分组结果:
- Orthogroups.GeneCount.tsv:每一行为直系同源基因组对应的基因数目;
- Orthogroups_SingleCopyOrthologues.txt
- Orthogroups.tsv:每一行为直系同源基因组对应的基因;
- Orthogroups.txt:类似Orthogroups.tsv,输出格式为OrthoMCL;
- Orthogroups_UnassignedGenes.tsv:物种特异性基因
- Single_Copy_Orthologue_Sequences里为单拷贝直系同源基因
- Comparative_Genomics_Statistics的相关结果文件:
- Orthogroups_SpeciesOverlaps.csv:不同物种间的同源基因的交集;
- SingleCopyOrthogroups.txt:单拷贝基因组的编号;
- Statistics_Overall.csv:总体统计;
- Statistics_PerSpecies.csv:分物种统计;
- Gene_Trees: 每个直系同源基因基因组里的基因树;
- SpeciesTree_rooted.txt: 从所有包含STAG支持的直系同源组推断的STAG物种树;
- SpeciesTree_rooted_node_labels.txt: 同上,只不过多了一个标签信息,用于解释基因重复数据;