基因家族指来自诸多物种的MRCA(Most Recent Common Ancestor,最近共同祖先)的同一个始祖基因演化而来的一组基因。 研究基因家族在进化过程中的大小变化,即关注旁系同源基因的演化。
Qu, Yanhua. et al . (2013). Ground tit genome reveals avian adaptation to living at high altitudes in the Tibetan plateau. Nature communications.
基因家族收缩扩张分析的软件是CAFE,https://github.com/hahnlab/CAFE5
需要准备的文件有两个:
- 基因家族聚类统计结果表格
- 带分化时间的物种进化树
基于orthofinder 结果进行cafe 分析
准备mcmctree分化时间tree文件:FigTree.tre
准备orthofinder聚类结果统计表:Orthogroups.GeneCount.tsv
#替换分化时间,以百万年为单位, 即所有枝长乘以100倍
sed 's/\[[^]]\+\]//g' FigTree.tre | awk -F "=" '/UTREE/{print $2} ' > tree.nwk
sed -e 's/:/\n:/g' -e 's/\([),]\)/\n\1/g' tree.nwk |awk '{if($1~/:$/){printf ":"100*$2} else {printf $0}}' |sed 's/\s\+//g' > input.tree
#将Orthogroups.GeneCount.tsv转为cafe输入格式
dos2unix Orthogroups.GeneCount.tsv #去掉不符合规范的字符
sed 's/\S\+$//' Orthogroups.GeneCount.tsv > input.tab #去掉最后一列
#运行cafe
cafe5 --infile input.tab --tree input.tree --output_prefix cafe_ortho --cores 5
-
结果文件
结果文件都在cafe_ortho目录下
整理进化树格式画图即可
awk '/TREE \S+ =/{print $NF}' cafe_ortho/Base_asr.tre | sed -r 's/_[0-9]+//g' | sed -r 's/([^)])<[0-9]+>/\1/g' | sed 's/*//g' > out_ortho.tree
最后上传到ITOL美化即可