|BACPHLIP：一键区分温和/烈性噬菌体

1. 小编导读

噬菌体是地球上数量最多、遗传最多样的生物实体，它们在微生物生态调控、宿主进化乃至人类医疗（如噬菌体疗法）中都扮演着关键角色。对于研究人员而言，快速准确地判断一个噬菌体是“温和性”（能整合宿主基因组，进入溶原循环）还是“烈性”（直接裂解宿主）是开展后续研究的基石。然而，随着宏基因组学的发展，新发现的噬菌体基因组序列呈爆炸式增长，传统实验方法无法跟上这一步伐。今天推荐的BACPHLIP工具，虽然发表时间不是特别新，却正是为解决这一痛点而生。它通过扫描基因组中与溶原性相关的保守蛋白结构域，并利用随机森林分类器，实现了对噬菌体生活史的高精度预测，为病毒组学和噬菌体基因组学研究提供了一个强大且易用的新工具。

2. 摘要

噬菌体通常被分为温和性和烈性两种生活史。准确识别其生活史，对于理解特定噬菌体在生态系统中的作用及其对宿主进化的影响至关重要。研究推出了BACPHLIP（BACterioPHage LIfestyle Predictor），一款预测噬菌体生活史的工具。BACPHLIP通过检测输入基因组中是否存在一组保守的蛋白质结构域，并利用在634个噬菌体基因组数据集上训练的随机森林分类器进行预测。在一个由423个噬菌体组成的独立测试集上，BACPHLIP的预测准确率达到了98%，远超此前已有工具79%的准确率。BACPHLIP已在GitHub上免费开源。

3. 研究方法

BACPHLIP的开发紧密结合了生物学知识与机器学习技术，其核心流程如下：

特征选择： 研究人员首先从保守结构域数据库（CDD）中，通过一系列关键词（如整合酶integrase、切割酶excisionase、重组酶recombinase等）搜索，筛选出可能富集于温和噬菌体中的蛋白结构域，共获得371个候选结构域。随后，基于训练集数据，剔除了在少数基因组中出现或更常见于烈性噬菌体的结构域，最终保留了206个结构域作为模型特征。

模型训练与验证： 研究使用了Mavrich & Hatfull (2017)整理的1057个已知生活史的噬菌体基因组作为基础数据集。将其随机分为训练集（634个）和独立的测试集（423个）。对每个训练集基因组，进行六框翻译并利用HMMER3软件扫描上述206个结构域的存在与否，由此将每个基因组转化为一个由0和1组成的特征向量。基于这些特征向量和已知的标签，训练了一个随机森林分类器。通过交叉验证对模型超参数（如树的数量、最大深度等）进行了优化。最终模型选择了能使验证集准确率最高的参数组合。整个测试集在模型开发过程中被完全保留，用于最终的性能评估。

独立性与保守性评估： 为了排除由于训练集和测试集之间存在相近基因组而导致准确率高估的可能，研究者进一步通过ANI（平均核苷酸一致性）聚类，筛选出与训练集所有基因组相似度低于80%的157个噬菌体，构建了一个严格意义上的“系统发育独立”测试集。

4. 主要结果

卓越的预测性能： 在包含423个噬菌体的独立测试集上，BACPHLIP的预测准确率高达98.3%，显著优于PHACTS（79%）和Mavrich & Hatfull方法（95.5%）。即便在更严格的157个“系统发育独立”测试集上，BACPHLIP的准确率依然保持在96.8%。多种评估指标（如平衡准确率、马修斯相关系数、F1分数）均显示BACPHLIP表现最佳。

模型特征重要性： 对随机森林模型的特征重要性分析表明，仅有少数蛋白结构域对预测起决定性作用。重要性排名前20的结构域贡献了模型总权重的59%，前50个贡献了85%。其中，“整合酶”和“重组酶”相关结构域是最重要的特征。

预测置信度的应用价值： BACPHLIP输出的是噬菌体属于某一类别的概率。研究发现，对于预测概率≥95%的高置信度结果（占测试集的78.7%），其准确率高达99.7%。因此，对于追求极致准确率的研究，可以只采纳高置信度的预测结果。

误差分析： BACPHLIP在测试集上仅有的7个错误预测中，有6个是将真实的温和噬菌体误判为烈性。这暗示错误可能是因为这些噬菌体编码了新型或高度分异的溶原相关蛋白，未被当前的结构域模型捕获。

5. 结论

BACPHLIP通过结合靶向蛋白结构域搜索与随机森林机器学习，为噬菌体生活史预测提供了一个高精度、易用且开源的新工具。其性能远超此前的方法，尤其适用于分析快速增长的噬菌体基因组数据。研究也指出了当前模型的主要局限性：训练数据主要来源于有尾噬菌体目，且宿主范围存在偏好（主要集中在放线菌、γ-变形菌和芽孢杆菌）。因此，对于感染其他宿主的高度多样性噬菌体，使用BACPHLIP时应保持谨慎。此外，该工具专为完整或接近完整的噬菌体基因组设计，对于碎片化的基因组草图，预测结果（尤其是“烈性”的预测）可能因关键基因缺失而不可靠。未来随着更多样化的实验数据积累和蛋白结构域注释的完善，BACPHLIP的性能有望进一步提升。

附：使用方法

输入必须是完整的噬菌体基因组，不完整的基因组不应作为输入，否则预测为“烈性”的结果极不可靠。BACPHLIP的训练数据集几乎全部来自有尾噬菌体目，且其宿主主要集中在放线菌纲、γ-变形菌纲和芽孢杆菌纲。对于感染其他宿主的高度多样性噬菌体，使用该工具进行预测时应格外谨慎。

安装

BACPHLIP的安装非常便捷，推荐使用conda进行安装，它会自动处理所需的Python依赖库（如biopython, pandas, scikit-learn等）。

conda install bioconda::bacphlip -y

使用

处理单个噬菌体基因组是最简单的用法。

bacphlip -i /完整路径/你的基因组.fasta

运行后，会在输入文件所在的目录下生成四个新文件，它们都以你的输入文件名开头，但附加了不同的后缀：

基因组名.fasta.bacphlip：最终的预测结果文件。这是一个制表符分隔的文本文件，包含了模型对该噬菌体属于“烈性”和“温和性”的概率预测。这是您最关心的输出文件。
基因组名.fasta.6frame：输入的基因组序列经过六框翻译后得到的氨基酸序列文件。
基因组名.fasta.hmmsearch：HMMER3搜索的原始输出文件。
基因组名.fasta.hmmsearch.tsv：将HMMER3搜索结果处理后生成的表格文件。
如果您有一个FASTA文件包含了多个不同的噬菌体基因组序列，可以使用--multi_fasta参数进行批量分析。

bacphlip -i /完整路径/多个基因组.fasta --multi_fasta

最终，会在输入文件同级目录下生成一个名为多个基因组.fasta.bacphlip 的汇总表格，其中每一行对应一个基因组的预测结果。
也作为Python库调用。

import bacphlip
# 处理单个文件
bacphlip.run_pipeline('/完整路径/你的基因组.fasta')

# 批量处理多个文件
for fasta_file in fasta_file_list:
    bacphlip.run_pipeline(fasta_file)

# 处理包含多条序列的单一文件
bacphlip.run_pipeline_multi('/完整路径/多个基因组.fasta')

重点关注x.bacphlip文件中的概率值。如果预测概率大于等于95%，论文结果表明该结果的准确率极高（可达99.7%）。对于概率在50%-95%之间的结果，可视为中等置信度。

如果输出文件已存在，BACPHLIP会报错以避免覆盖。您可以使用 -f 参数强制覆盖已存在的文件。

6. 参考

Hockenberry AJ, Wilke CO. 2021. BACPHLIP: predicting bacteriophage lifestyle from conserved protein domains. PeerJ 9:e11396 DOI: 10.7717/peerj.11396.
https://github.com/adamhockenberry/bacphlip

|BACPHLIP：一键区分温和/烈性噬菌体