热点综述 | 利用宏基因组数据促进蛋白质结构预测和新功能蛋白的发现

在过去的十年中，宏基因组测序技术以惊人的速度提供了越来越多的蛋白序列数据，这些数据已被用于各研究领域，如研究肠道微生物群在人类疾病和衰老中的作用。然而，在收集的所有宏基因组序列中，只有一小部分在功能或结构上进行了表征，其中大部分尚未被探索。近日《Computational and Structural Biotechnology Journal》发表了一篇Mini review，回顾了宏基因组数据如何被用于蛋白质结构预测和蛋白质发现。

宏基因组资源和数据库

作者首先回顾了广泛用于各种研究（如蛋白质结构预测、代谢基因簇发现、酶发现和基因功能预测等）的宏基因组数据库：IMG/M, MGnify, MetaClust和BFD。

IMG/M是一个综合的数据管理资源，用于分析注释的基因组和宏基因组序列数据。其数据量正在迅速增长，从分离的基因组中获得约3.6亿个基因，从宏基因组中获得660亿个基因。后者主要来自人类肠道微生物群以及海洋和淡水微生物系统。IMG/M包括一套用于数据分析的基因组工具，如IMG/ABC用于研究生物合成基因簇和次级代谢物，IMG/VR用于分析来自宏基因组样本的病毒基因组片段。其还提供多种搜索功能，例如通过BLAST、KEGG酶和途径、CATH families和Pfam domains搜索数据库中目标序列的同源蛋白。

MGnify是一个分析、探索和归档微生物组信息的综合平台。它是世界上最大的微生物组数据资源之一，也是一个整合了多种基因组工具的用户友好型平台。共有约4000项公开的研究，对应约325,000个样本和437,000项分析被存入该数据库中。MGnify提供了一个非冗余的蛋白质集，该蛋白质集是由所有组装的数据集分析产生的，包含超过10亿个序列。其还提供了非常有用的工具，例如使用HMMER查询非冗余蛋白质数据集的序列同源性。

MetaClust数据库包含约16亿个蛋白序列片段，由基因预测程序Prodigal从多个资源中获得的约1800个宏基因组和400个宏转录组数据集中预测。使用Linclust将这些序列聚类为4.24亿个类，即MetaClust是一个随时可用的工具，可提供4.24亿个代表性序列。

与其他数据库不同，BFD是一个序列特征数据库。它包含约6500万个以MSAs和HMMs表示的家族。

上述数据库也是在蛋白质结构预测关键评估（CASP）中常用的宏基因组数据库。其他宏基因组数据库有：对宏基因组进行存储、注释、系统发育研究和功能分析的MG-RAST；收集真核生物宏基因组数据的数据库TOPAZ、SMAGs和MetaEuk；病毒宏基因组数据库，MetaVir、VIROME、MGV和GPD。

将宏基因组学数据整合到结构预测流程中

提高蛋白质结构预测的准确性

宏基因组数据首次用于改善多序列比对(MSA)质量是在2017年：将IMG/M数据库与UniRef30相结合，可以获得更深层次的MSA。这一改进导致使用GREMLIN对大约20%的Pfam家族的蛋白质接触图进行更准确的预测，进而通过Rosetta生成更准确的3D结构。在此之后，整合多宏基因组数据源的结构预测工具已经被开发出来。

CASP14中的一些预测方法使用DeepMSA流程根据宏基因组数据库查询目标序列。然而，AlphaFold2、D-I-Tasser和RoseTTaFold等性能更好的方法开发了新的、改进的同源序列搜索流程，将多种方法结合起来挖掘宏基因组数据库，例如CASP14中占主导地位的AlphaFold2，其使用JackHMMER在UniRef90和MGnify中进行同源搜索，同时使用HHBlits在BFD和Uniclust30中进行同源搜索。然后对这些搜索的输出MSA进行重复数据消除并叠加在一起，以进一步提高收集的同源序列的数量。该流程使结构预测性能平均提高约6%。

DeepMSA方法已推广到DeepMSA2，其中除Uniclust30和UniRef90基因组序列数据库外，还挖掘了MetaClust、BFD、MGnify和IMG/M。整个流程由一系列复杂的步骤组成，包括用JackHammer、HHBlits和HMMsearch进行多轮的数据库挖掘，其提供的MSA深度比原来的DeepMSA流程深40%到150%。

最近，一个计算效率更高的MSA生成流程已经被引入。它采用MMseqs2来挖掘UniRef30，并利用生成的序列图谱，对两个新的数据库（BFD/MGnify和ColabFoldDB）进行迭代搜索。

与不依赖宏基因组信息的标准方法相比，这些方法的准确性得到了提高，这表明宏基因组学在蛋白质结构预测领域发挥了核心作用。这是因为目前的序列数据库尽管增长迅速，但还远远不够完整，它们包含的目标蛋白的同源序列太少。宏基因组序列数据库具有填补这一空白的优势。需要注意的是，结合使用多个宏基因组数据库的不同挖掘算法和参数，可以进一步改善同源序列的搜索，从而有助于构建更深入的MSA，确定蛋白质结构预测所需的更准确的进化信息。

整合的宏基因组数据越多越好么？

考虑到序列的有效数量、序列覆盖率和比对精度之间的权衡，在比对中拥有更多的序列同源物并不一定更好。

在最近一项有趣的研究中，针对一组约2000个没有结构模板的Pfam家族，研究了微生物生态位与同源蛋白质家族之间的联系。从肠道、湖泊、土壤和发酵罐四个不同的微生物群落依次用于MSA富集，以测试它们改善3D结构预测的能力。事实证明，当只使用一个或几个与目标蛋白质家族相关的特定生物群落时，Pfam家族的结构建模更精确。

这促使我们提出了一个名为MetaSource的预测模型，该模型能够识别一个或一组生物群落，从而更好地构建MSA，并对一个给定的Pfam家族进行建模。需要注意的是，这种方法不仅产生了更高的准确性，而且在计算效率上也有明显提高：比考虑所有宏基因组信息集的速度快3.3倍左右。

整合宏基因组学数据进行功能注释和验证

促进酶的发现

使用从各种不同环境（从动物瘤胃到海洋、水和土壤）中提取的海量序列数据，在过去十年中彻底改变了新酶的发现过程。从相关研究估计至少有500种新的酶是通过基于宏基因组学的方法被发现的。从宏基因组数据中发现新酶主要有两种方法，即基于功能的筛选和基于序列的筛选，其中通过基于序列的筛选进行宏基因组酶发现的自动计算流程的示例有MetaHMM 和 ANASTASIA。

微生物组中的CRISPR-Cas系统识别

由于CRISPR-Cas系统在基因组编辑方面的巨大潜力，因此需要对宏基因组数据集进行挖掘以发现新的此类系统。例如使用Prodigal从三个来源的宏基因组数据中提取了1.55亿个蛋白编码基因。使用HMMER对这组序列进行了Cas蛋白同源物的搜索，同时使用CrisprFinder检测工具对CRISPR阵列进行识别。这一分析导致了新的CRISPR-Cas系统的鉴定：古细菌中的CRISPR-Cas9，细菌中的CRISPR-CasX和CasY。此外，另一项研究中Crass工具已被用于从未组装的宏基因组数据中识别和重建CRISPR。此外，已经开发了几种发现CRISPR重复序列的生物信息学工具，其中包括MinCED（github.com/ctSkennerton/MinCED）、MetaCRAST、Crass和metaCRT。值得注意的是，还可以通过挖掘宏基因组数据库来探索抗CRISPR，即CRISPR-Cas系统的天然抑制剂。

对抗性组（resistome）进行功能注释和分析

耐药性是微生物学中的另一个中心问题，宏基因组数据在其中起着基础性作用。鉴定土壤细菌、人类肠道微生物群和其他微生物群落中的抗生素耐药基因（ARG）对于全面了解抗生素耐药性的起源、进化和维持非常重要，这些基因可能充当ARG的储存库。其中一项研究利用蛋白质3D结构，开发了一种基于同源建模和机器学习技术相结合的方法，能够正确识别肠道微生物群中的ARG。

土壤无疑是ARG的另一个储存库，因为它与畜牧业和农业中使用的抗生素直接接触。通过对土壤源性细菌培养物的功能性宏基因组学分析，证明了土壤中的细菌和临床病原体之间存在ARG交换。

在提高数据分析和宏基因组数据库的标准化方面所做的大量努力已经在酶发现、3D蛋白质结构预测和功能注释方面取得了令人印象深刻的进展。人类微生物群在疾病、衰老和抗生素耐药性中的作用的研究也从这些进展中受益匪浅。

目前宏基因组数据量的激增给生物信息学工具带来了挑战，尤其是在数据存储、分析以及不同宏基因组技术的整合方面，包括宏转录组学、宏蛋白质组学和代谢组学。这些工具的改进将在未来给这些领域带来进一步发展，也将促进或继续推动本文中未分析的一系列其他应用，例如蛋白质功能预测，蛋白质相互作用和蛋白质复合物结构的预测，以及新型病毒病原体的检测和追踪。

首发公号：国家基因库大数据平台

参考文献

Hou Q, Pucci F, Pan F, et al. Using metagenomic data to boost protein structure prediction and discovery[J]. Computational and Structural Biotechnology Journal, 2022.

图片均来源于参考文献，如有侵权请联系删除。