基因家族聚类之OrthoFinder

刘小泽写于19.2.11

这是干啥的?

做进化、基因家族分析、比较基因组使用

OrthoFinder is simple to use and all you need to run it is a set of protein sequence files (one per species) in FASTA format.

最新版的是version2,Emms, D.M. and Kelly, S. (2018) OrthoFinder2: fast and accurate phylogenomic orthology analysis from gene sequences. bioRxiv

OrthoFinder
  • Orthologs: pairs of genes that descended from a single gene in the last common ancestor (LCA) of two species

  • Orthogroup:(extension of the concept of orthology)the group of genes descended from a single gene in the LCA of a group of species

    【all the genes in an orthogroup started out with the same sequence and function

Orthologues, Orthogroups & Paralogues

使用

安装

https://github.com/davidemms/OrthoFinder

需要python2环境

conda install -n orthofinder python=2 orthofinder
source activate orthofinder

软件运行依赖于diamond或者mmseqs2、blast、mcl、fastme

参数设置

orthofinder -f data \ #存放蛋白的fa数据
    -S diamond \ #比对模式:diamond,blast,mmseqs,blast_gz
    -M msa \ #基因树推断法:dendroblast,msa(推荐)
    -T fasttree \ #建树软件:iqtree, fasttree, raxml(推荐),raxml
    -t 5 #线程

可以用软件自带的参考数据测试:https://github.com/davidemms/OrthoFinder/tree/master/orthofinder/ExampleDataset

运次过程

因为是小测试数据,因此运行的过程都可以监测:

1. Checking required programs are installed
2. Dividing up work for BLAST for parallel processing
3. Running diamond all-versus-all
4. Running OrthoFinder algorithm
5. Writing orthogroups to file
6. Analysing Orthogroups
7. Best outgroup(s) for species tree
8. Multiple potential species tree roots were identified, only one will be analyed.
9. Reconciling gene trees and species tree
10. Writing results files

结果生成这些文件,存放在Result目录中

Orthogroups.GeneCount.csv  
Orthogroups.txt                  Orthogroups_UnassignedGenes.csv  
SingleCopyOrthogroups.txt  
Statistics_PerSpecies.csv
Orthogroups.csv            
Orthogroups_SpeciesOverlaps.csv  
Orthologues_Feb11                
Statistics_Overall.csv     WorkingDirectory

其中Orthogroups.GeneCount.csv 中每一行代表一个基因家族,每一列表示每个物种的基因家族包含多少基因,比如OG0000000这个基因家族,在1物种中没有,在2物种有1个基因,在3物种有8个基因

Orthogroups

我们选出各个物种中基因数大于0的基因家族,首先看物种1

我们不要第一行,然后看物种1,也就是$2,选出大于0的,然后我们需要的是基因家族编号,也即是第一列

sed '1d' Orthogroups.GeneCount.csv |awk '$2 >0 {print $1}' >1.txt

同理可以看其他物种的,根据这个可以做韦恩图(在线工具、R都可以),看看有哪些是共有的


欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com

Welcome to our bioinfoplanet!

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • rljs by sennchi Timeline of History Part One The Cognitiv...
    sennchi阅读 12,199评论 0 10
  • 古代杂交事件为慈鲷科鱼类的适应辐射提供动力 Ancient hybridization fuels rapid c...
    智取鸟氨酸阅读 10,265评论 0 5
  • 《達爾文所未知的》解說詞 撰寫(Written):阿爾芒·馬裏耶(The Animal Mother) 翻譯(Tr...
    JENTSON阅读 5,431评论 0 1
  • 近代的量子物理学发现,人类的观察会改变量子的运行方向。 比如,科学家们做的实验,一个保龄球在轨道上滑动,如果你的眼...
    雪飞_dd6c阅读 3,775评论 0 1
  • 1 当你看到这里的时候,需要你先做一个小小的测试:以下几项,你中枪几项? a) 都不容易 b) 你喜欢就好,随便吧...
    南圆北褶儿阅读 3,180评论 0 4

友情链接更多精彩内容