interpro-数据库使用

InterPro 是一个生物信息学资源库,它通过将蛋白质序列划分为家族、预测结构域与重要功能位点,来提供蛋白质序列的功能分析。为实现蛋白质分类,InterPro 使用被称为特征标记(signatures)的预测模型;这些模型由多个不同数据库(即成员数据库)提供,它们共同组成了 InterPro 联盟。

InterPro干了些啥?

通过整合来自不同成员数据库中代表同一家族、结构域或功能位点的特征标记,减少信息冗余,简化蛋白质序列分析流程。

联合各成员数据库,充分发挥其各自优势,构建出功能强大的分类工具。

提供统一、便捷的检索入口,支持同时查询所有成员数据库。

为各类特征标记补充丰富信息(包括描述性摘要与基因本体论(GO)术语),可用于对匹配到的蛋白质进行功能注释。

收录 UniProtKB 蛋白质的实验结构与预测结构,支持在蛋白质三维结构背景下可视化展示注释信息。(牛逼)

InterPro 条目会根据其所代表的生物学实体,归入以下5 大类之一:

同源超家族、蛋白质家族、结构域、重复序列或功能位点(homologous superfamily, protein family, domain, repeat or site),具体标识见图1。

图1

InterPro entries 通常与数据库中的其他entries存在关联关系。例如,某个entries可以代表一个较大家族下具有特定功能的亚家族,或是某一大类结构域中的一个子类。这些关联关系在 InterPro 中以层级结构的形式存储,并在entries页面的关联关系区域以树形图展示。

家族entries结构域entries均可形成层级关系,但二者的层级结构在数据库中相互独立、互不重叠(例如,某一结构域的子类不能同时是某一蛋白质家族的亚型)。不过,同源超家族与家族、结构域entries之间的关联关系属于例外:这类关系通过Jaccard 指数与包含指数自动计算生成,并显示在 “重叠的同源超家族” 区域中(见图2)。

图2

重叠的同源超家族

重叠条目(Overlapping entries)区域展示的是同源超家族与家族、结构域类 InterPro 条目之间的关联关系,该关系通过分析匹配序列集合的重叠程度进行计算。

若满足以下条件,一个 InterPro 条目(IPR,类型为家族、结构域、重复序列或功能位点)会被判定与某一同源超家族相关:

二者的序列匹配区域存在重叠(即匹配位置落在同源超家族的边界范围内);

匹配序列集合的Jaccard 指数(对等关系)包含指数(父子关系)大于 0.75。  

Jaccard index (equivalent) or containment index (parent/child)

两个数据集的并集与交集是什么?

并集(IPR1 ∪ IPR2):两个数据集中出现的唯一蛋白质总数

交集(IPR1 ∩ IPR2,等价于 IPR2 ∩ IPR1):两个数据集共有蛋白质中,结构域发生重叠的数量

如何判断蛋白质结构域是否相交?

通过查看两个目标条目之间的共有蛋白质,判断其结构域是否相交的核心是验证匹配区域是否重叠

具体方法为:检查其中一个条目的匹配区域中点,是否落在另一个条目匹配区域的边界范围之内

Jaccard = 交集蛋白数 ÷ 并集蛋白数 ,判断对等关系

Containment index(包含指数,判断父子关系),这个是看一个条目是不是几乎完全被另一个包含,比如:

IPR1 很大(超家族 / 大家族),IPR2 很小(亚家族 / 子结构域),IPR2 的蛋白几乎全都在 IPR1 里,containment ≥ 0.75,则判定:父子关系(parent/child)

如何在InterPro检索

输入氨基酸序列核苷酸序列、进行文本检索(如关键词、短语,或 UniProt、InterPro 标识符)、输入结构域架构,或浏览 InterPro 成员数据库及 / 或条目类型。

InterPro 主页的搜索区域,展示了文本搜索框(A)序列搜索(B)选项,在序列搜索中包含 【高级选项,Advanced options】:可在此修改序列类型(默认为蛋白质 / 氨基酸序列),并将搜索范围限定于感兴趣的成员数据库或序列特征。在顶部菜单中选择浏览标签页(C),可进入浏览式搜索(例如搜索成员数据库特征标记、InterPro 条目类型)。你也可以搜索特定的结构域架构(D)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容