宏病毒组(四)|病毒注释软件介绍

宏病毒组直接以样本中所有病毒的遗传物质为研究对象,快速鉴定样本中所有的病毒组成。测序数据的组装及病毒的分类注释直接影响项目分析结果的准确性。在上篇推文中小编给大家详细介绍了组装软件——Megahit超详细安装及应用教程,接下来给大家介绍2款常见的病毒分类注释软件。

1.PhaGCN2软件

PhaGCN2可以在科水平上快速对病毒序列进行分类,并支持网络图来可视化结果文件。软件链接:https://github.com/KennthShang/PhaGCN2.0。其特点是:

(1)使用prodigal在整个病毒领域下构建参考数据库

为了建立更快捷、更方便用户的数据库构建管道,应用Prodigal基于最新的ICTV2021数据库进行了蛋白翻译(最新的ICTV2021包含10550个病毒)。使用DOV (Dataset of Oyster Virome)中的8760个病毒序列(length>8000bp)作为测试序列,将使用Prodigal构建的数据库的PhaGCN2与原始PhaGCN数据库进行比较,结果显示98.46%的预测结果是一致的。用户可以通过训练PhaGCN2中的病毒分类数据库的功能,将分类与ICTV批准的分类进行对齐。

(2)使用网络图来识别离群点,将离群节点分配给family_like

PhaGCN2能够自动识别新的科,从而消除了常用监督学习模型中对固定标签集的限制。PhaGCN2也可以输出病毒簇集群网络,方便用户对不同病毒科和病毒科成员之间的关系有直观的了解。除了将科与科之间的关系可视化,使用网络拓扑来识别可能的新科,这些新科由与ICTV节点弱连接的子图组成。首先,识别离群点——没有连接到ICTV中的任何病毒的测试病毒(节点)(图1,红点)。通常这些异常值来自新的科,但由于监督学习算法的设计限制,它们被分配到family_like。

图1 引入“family_like“前后的网络图对比 

PhaGCN2也存在不足,如对于那些没有相似度或相似度很低的“暗物质”序列,进行从头病毒分类可能是一项不可能的任务。首先,无法评估预测的准确性;其次,没有任何同源物,很难描述它们基因组的结构或功能;无论确定了多少个序列,它们仍然是“暗物质”。

另外由于PhaGCN2不能预测输入序列是属于病毒还是宿主细胞,应用PhaGCN2之前,应先使用病毒识别工具(如DIAMOND、Virsorter2等)去除非病毒序列。

2.vConTACT2

vConTACT v.2.0是一个基于网络的应用程序,利用全基因组共享基因进行病毒分类,它集成了基于距离的层次分类和所分类预测的置信度评分。软件链接:https://bitbucket.org/MAVERICLab/vcontact2/wiki/Home。

vConTACT(v.1.0)的目标是自动将病毒基因组分配到已建立的或新的分类单元中,并评估与ICTV分类一致性(图2)。然而,在目前的ICTV原核病毒分类中,属级以上的分类零星的用于亚科和目,因此该应用特别强调病毒在属水平分类。

在一个基于网络的基因组分类学中(图2a),相关基因组作为一组节点出现,通过病毒簇多边强烈相关性连接。在v.1.0版本中,约75%的病毒簇与已建立的ICTV属相对应,但存在约25%不一致。病毒簇的不一致可能由于抽样不足导致的聚类基因组没有近缘属,或者多个具有相同基因的ICTV属的不正确重叠,亦或者多个ICTV属错误的分配到一个结构化的病毒簇(图2b)。

为了解决这些问题,vConTACT v.2.0使用了一种新的聚类算法,为分级分类建立基于置信度评分和距离的分类分离单元,并使用一个大规模病毒宏基因组数据集对可扩展性和稳定性进行优化和评估。总体来说,在形成马尔科夫算法聚类蛋白集成群后,优化了蛋白簇,建立了自动化的两步过程,接着使用ClusterONE(CL1)来定义病毒簇,使用层次聚类对网络中有问题的区域进行细分(图2a)。

图2 病毒基因组分类可视化网络图

利用vConTACT v.2.0,可获得与NCBI中病毒参考序列物种信息几乎一样的分类结果(高达96%准确率);对存在于病毒RefSeq中1346个先前未分类的病毒进行分类,其中820种自动生成高可信度的属水平分类。应用vConTACT v.2.0分析了15280个全球海洋病毒基因组片段,并且这些数据中31%可以进行物种分类。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,589评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,615评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,933评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,976评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,999评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,775评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,474评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,359评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,854评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,007评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,146评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,826评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,484评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,029评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,153评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,420评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,107评论 2 356

推荐阅读更多精彩内容