「基因组」OMArk评估蛋白

OMArk依赖于查询蛋白质组和生命树中预先计算的基因家族之间的快速、无比对的序列比较,可评估整个基因库相对于密切相关物种的完整性和一致性。与BUSCO软件相比,OMArk可以同时量化编码基因库存在的基因缺失、基因模型定义不准确、非编码序列错误等。OMArk引入了两套评价体系,可以进行基因组完整性(Completeness)和一致性(Consistency)评价,可以获得更清晰的注释质量图片。
文章来源:Nature Biotechnology在线发表论文:Quality assessment of gene repertoire annotations with OMArk,描述了一个用于评估蛋白质编码基因注释质量的OMArk软件包

软件地址

https://github.com/DessimozLab/OMArk

软件安装

conda install -c bioconda omark

软件使用

export PATH=/share/nas1/pengzw/software/anaconda3/2023.09/envs/omark_0.3.0/bin:$PATH
source /share/nas1/pengzw/software/anaconda3/2023.09/bin/activate 
conda activate omark_0.3.0

omamer search --db LUCA.h5 --query /share/nas1/pengzw/database/Arabidopsis_thaliana/Col-PEK1.5/pep.fa --out pep.fa.db
mkdir output1
#第一次运行需要网连接ncbi下载
omark -f pep.fa.db -d LUCA.h5 -o output1
plot_all_results.py -i output -o fig.png
2个重要评估结果:完整性(Completeness)和一致性(Consistency),都是用柱状图展示,其中missing和unknown比例越少越好。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容