interpro-蛋白质结构

InterPro 是欧洲生物信息研究所（EBI）旗下最主要的蛋白质分类数据库。

InterPro 将来自多个不同数据库的蛋白序列特征标记（patterns）、（profiles）、（fingerprints）（HMMs）整合为一个统一的可检索资源，用户无需逐一访问各成员数据库，即可便捷使用这些特征标记的预测功能（构建 InterPro 所整合的数据库概览，见图0）。

通过整合不同数据库与多种类型的特征标记，InterPro 能够充分发挥各类方法的各自优势，形成一个强大的蛋白质功能预测工具。InterPro 旨在通过一致的方式整合与组织信息、去除冗余，并为特征标记及其匹配的蛋白质补充丰富的注释与实用链接，从而为用户简化并规范蛋白质序列分析流程。

图0

InterPro能做什么？

当你拥有一条或一组氨基酸序列或核苷酸序列，并希望了解以下信息时，可以使用 InterPro：

这些序列是什么、编码什么产物、属于哪个蛋白质家族

它们的功能是什么，以及如何从结构角度解释该功能

你也可将 InterPro 用于其他多种研究场景，例如查看 UniProt 数据库中已有序列的结构或功能预测信息。

在以下场景中，InterPro 无法提供帮助：

对蛋白质序列进行结构比对

针对基因组 DNA 序列开展基因注释（内含子 / 外显子预测、启动子区域识别等）

教程：

基础概念学习 https://www.ebi.ac.uk/training/online/courses/protein-classification-intro-ebi-resources/

interpro使用 https://www.ebi.ac.uk/training/online/courses/interpro-functional-and-structural-analysis/

进行蛋白质分类的目的在于蛋白质功能和特性的预测，通常基于蛋白的家族（families）、domains（结构域）和sequence features（序列特征）进行蛋白分类。

蛋白家族（families）

图1

蛋白质家族是一组具有共同进化起源的蛋白质，这一起源通过其功能相关性、序列或结构相似性得以体现。

蛋白质家族通常呈层级结构划分：共享共同祖先的蛋白质可进一步细分为更小、亲缘关系更近的类群。在此分类体系中，常使用超家族（用于描述亲缘关系较远的大型蛋白类群）和亚家族（用于描述亲缘关系较近的小型蛋白类群）等术语。图 1 展示了一个假想的蛋白质家族层级结构示例.

蛋白结构域（domains）

结构域是蛋白质中具有独立功能与 / 或结构的单元。它们通常负责某一特定功能或分子相互作用，从而参与并贡献于蛋白质的整体生物学功能。结构域可存在于多种不同的生物学场景中，即使是功能各异的蛋白质，也可能含有相似的结构域。

基于蛋白家族和蛋白结构域的蛋白分类

基于蛋白家族和结构域进行蛋白分类并非总是简单直观的，二者可能存在重叠，因为蛋白质有时会依据其所包含的结构域被归入相应家族。下文将举例说明这类复杂情况。

图2中，G 蛋白信号调控结构域（RGS 结构域）是一类可激活 GTP 酶的蛋白质结构单元。这类结构域存在并隶属于 RGS 蛋白家族的序列中，该蛋白家族是具有多功能的 GTP 酶激活蛋白。所有 RGS蛋白家族成员均含有 RGS 结构域（注意，并不是包含RGS 结构域就一定是RGS蛋白家族成员），但部分蛋白（如 RGS1）仅由该结构域构成，而另一些蛋白（如 RGS3 和 RGS6）还包含额外结构域，从而赋予其更多功能，例如参与膜定位的 DEP 结构域。

RGS 结构域也存在于其他家族的蛋白质中，如 β 肾上腺素能受体激酶（beta-adrenergic receptor kinases family）以及sorting nexin family蛋白家族的部分成员。

图2

序列特性（sequence features）

序列特征是指能够赋予蛋白质特定性质、并对其整体功能具有重要作用的一组氨基酸。这类特征主要包括：

活性位点：包含参与催化反应的氨基酸。例如，催化脂肪合成与水解的脂肪酶，具有两个对催化活性至关重要的氨基酸残基（组氨酸后接甘氨酸）。

结合位点：包含直接参与结合小分子或离子的氨基酸，如血红蛋白中的铁离子结合位点。

翻译后修饰位点（PTM 位点）：包含已知在蛋白质翻译后会发生化学修饰的残基，如磷酸化、棕榈酰化、乙酰化等。

重复序列：通常是蛋白质内部重复出现的短氨基酸序列，可赋予蛋白质结合功能或特定结构特性。

序列特征与结构域的区别在于：序列特征通常很短（往往仅由少数氨基酸组成），而结构域是蛋白质完整的结构或功能单元。序列特征通常嵌套在结构域内部—— 例如，蛋白激酶结构域中通常包含一个蛋白激酶活性位点。

蛋白质也可根据其所包含的序列特征进行分类。例如，铁氧还蛋白是一类铁硫蛋白，在光合作用等多种生物氧化还原反应中介导电子传递。根据其铁硫簇的性质，这类蛋白可划分为多个亚类（有关铁氧还蛋白的更多信息可参阅相关资料）。

什么是蛋白质特征标记（protein signatures）

要将蛋白质划分为不同家族，并预测重要结构域或序列特征的存在，我们需要借助生物信息学工具。这类工具中的一类，便是被称为 ** 蛋白质特征标记（protein signatures）** 的预测模型。

特征标记存在多种类型，分别基于不同的计算方法构建。但它们的共同起点，都是对具有一组共同特征的蛋白质进行多序列比对（例如属于同一家族或共享同一结构域）。在构建初始模型时，会考虑比对中不同位置的氨基酸保守程度。随后利用该模型对蛋白质数据库进行迭代搜索，随着数据库中亲缘关系更远的相关序列被识别，模型也会不断优化。当模型成熟后，该特征标记即可用于蛋白质序列分析。

如何进行蛋白质特征标记

多序列比对能够为蛋白质分类提供极具价值的信息，因为它可以帮助我们识别在远缘同源蛋白中保守的（通常数量较少的）氨基酸残基。这类关键保守残基无法通过双序列比对方法（如 BLAST）有效识别。因此，基于多序列比对构建的蛋白质特征标记，在检测分化程度较高的同源蛋白方面，通常优于双序列比对方法。

图3

进行特征标记的方法

包括patterns、profiles、fingerprints、HMMs 等方法，

共同点

都来自多序列比对（MSA）

都用于识别保守区域，给蛋白质分类、找结构域、找同源蛋白

都属于蛋白质特征标记（protein signatures），用于数据库搜索与注释

不同点（核心区别）

1. Patterns（序列模式）

特点：高度保守的短序列片段，用正则表达式表示（如[GA]x(2)D[ST]）。

只关注完全 / 高度保守的位点，不考虑保守程度差异。

优点：简单、明确、匹配速度快。

缺点：太严格，对远缘同源蛋白灵敏度低。

典型数据库：PROSITE（经典模式库）

2. Profiles（序列谱 / 位置特异性评分矩阵）

特点：基于多序列比对，给每个位置每个氨基酸打分，考虑出现频率。

比 patterns 更灵敏，能识别弱同源序列。

优点：灵敏度高，能捕捉保守趋势。

缺点：不考虑位置之间的依赖关系，对长结构域建模不如 HMM。

典型数据库：PROSITE（profile 模式）、Pfam 早期版本

3. Fingerprints（指纹特征）

特点：由多个不连续的短保守片段（motifs）组成，共同构成 “指纹”。

不要求单段连续保守，而是一组分散保守区共同识别蛋白家族。

优点：抗突变能力强，适合高度分化的家族。

缺点：构建复杂，搜索速度较慢。

典型数据库：PRINTS

4. Hidden Markov Models（HMMs，隐马尔可夫模型）

特点：最强大、最主流的方法，是概率模型。

能建模：保守位点、插入、缺失、位置依赖、空位概率。

优点：灵敏度最高，能可靠识别远缘同源、高度分化的蛋白。

缺点：模型更大、计算稍慢。

典型数据库：Pfam、SMART、TIGRFAMs（现代结构域数据库核心）

总结：

蛋白质分类能够对尚未经实验表征的新蛋白质进行功能与结构特征的推断。

可根据蛋白质所属的家族、以及 / 或者其包含的结构域和序列特征对其进行分类：

蛋白质家族：一组具有共同进化起源的蛋白质，体现为功能相关、序列和 / 或结构相似。

结构域：蛋白质中独立的功能与 / 或结构单元，可存在于多种不同的生物学背景中。

序列特征：包括活性位点、结合位点、翻译后修饰位点与重复序列。

蛋白特征标记（protein signatures）：由多序列比对构建的数学模型，可用于蛋白质分类。

蛋白质特征标记通常是识别蛋白质功能的更灵敏方法，优于双序列相似性搜索（如 BLAST）。

不同类型的特征标记采用不同方法：有的关注single motifs（patterns），有的关注 multiple motifs（ fingerprints），还有的考虑whole alignment （ profiles 与 HMMs）。它们在蛋白质序列分析中各具优势，可用于将蛋白质归入家族，或识别结构域与序列特征。

interpro-蛋白质结构