生物数据库之二级蛋白质数据库

二级蛋白质数据库数目众多,我们挑几个常用的给大家介绍。

一、结构域家族数据库 Pfam

Pfam 数据库是一个蛋白质结构域家族的集合,包括了一万六千多个蛋白质家族。蛋白质一般是由一个或多个功能区域组成,这些功能区域通常称作结构域(domain)。在不同的蛋白质中结构域以不同的组合出现,形成了蛋白质的多样性。识别出蛋白质中的结构域对于了解蛋白质的功能有重要意义。

TLR

比如 Toll 样受体蛋白:人的免疫系统中有许多种 Toll 样受体蛋白,所有这些种类的 Toll 样受体蛋白都可以分成三个结构域, 每个结构域行使不同的功能。胞外域用于识别不同的入侵物,跨膜区穿膜,胞内域用于胞内信号转导。

免疫蛋白MyD88.JPG

另一个免疫蛋白 MyD88,存在于胞内。它与 Toll 样受体的功能不同,但它有一个和 Toll 样受体胞内域相同的结构域。这两个不同蛋白上的相同结构域可以相互结合以激活下游的信号传导。

因此,如果我们能够探明一个未知功能的蛋白质上有哪些已知的结构域, 那我们就大致可以推测出它的功能。

Pfam 主页上的搜索工具可以帮助我们查找某条序列上有哪些结构域。

image-20200423172156371
输入上图示例序列(示例序列的富文本附件 pfam.fasta点击下载)。这是一条 Toll 样受体蛋白的序列。搜索结果显示,一共找到 4 个区域匹配 Pfam 数据库中已记录的结构域。前三个是 Toll 样受体蛋 白胞外域典型的重复序列片段。

image-20200423174234059
image-20200423174410931

最后一个是 TIR 结构域,也就是我们刚才说的 Toll 样受体蛋白的胞内域。

点击胞内域查看详细信息如下:

image-20200423174641602

Summary 里可以获得这个结构域的功能注释以及结构信息。

Domain Organization 里可以看到目前有多少蛋白质拥有 TIR 结构域,以及 TIR 结构域和其他结构域之间的组合搭配关系。

image-20200423174740118

Structure 会列出目前所有包含 TIR 结构域的蛋白质结构,以及他们在序列数据库 UniProt 和结构数据库 PDB 中的链接。同时,也提供 JSmol 在线结构查看工具。

image-20200423174901141

二、CATH 数据库

根据结构域的空间特征可以对结构域进行分类。

CATH 和SCOP 是两个重要的蛋白质结构分类数据库。

CATH 数据库由伦敦大学1993 年创建。CATH的名字C、A、T、H 是数据库中四种结构分类层次的首字母。

image-20200424173359077
  • 所有蛋白质结构域在CATH 中被首先分成4 种CLASS,这就是C。四种CLASS 分别是全α型,全β型, α +β型,低二级结构型。比如图中第一行这三个蛋白质,很显然左边是全α的,右边是全β的,中间是 α +β的。

  • 每一个Class 中的结构域又被具体分为不同的architecture,也就是A。A 这一层是按照螺旋和折叠所形成的超二级结构排列方式分类的。比如α +β这个class 下的结构可以进一步分为桶状的,三明治状的,还有滚轴状等Architecture。

  • 每种Architecture 里的结构域,又可以根据二级结构的形状和二级结构间的联系更进一步分为不同的topology,也就是T。

  • 最后再通过序列比较以及结构比较确定同源性分类,划分出不同的homologous superfamily,也就是H。

这样每个结构从粗到细,即从A 到H,会有四个层次的分类。

注意:结构分类是以结构域为单位进行的,而不是针对整个蛋白。所以PDB 中的一个蛋白质结构可能对应CATH中多个结构域分类。CATH 在分类时既使用计算机程序,也进行人工检查。

CATH 为每一层的每一种结构分类命名,并用数字代号代表这一分类。因此每个结构域会具有一个分类代码。

image-20200424173751624

第一个数字是C 这一层的分类代码,第2 个数字是A 这一层的分类代码,第3 个数字是T 这一层的分类代码,第4 个数字是H 这一层的分类代码。

目前CATH 已为PDB 数据库中10 多万个蛋白质结构所涉及的30 多万个结构域进行了结构分类,这些分类可以归入两千七百多个蛋白质超家族中。此外,CATH-Gene3D 还为超过500 万条来自公共数据库的蛋白质序列进行了结构分类预测。Gene3D 里的信息为绝大多数还未解析3D 结构的蛋白质提供了重要的功能研究依据。

接下来,我们从CATH 数据库搜索一个PDB 结构的分类信息。

image-20200424174317706

搜索条输入3H6X,这是我们在PDB 数据库里查看过的dUTPase 的结构。

image-20200424174413598

结果显示dUTPase 蛋白的结构分类代码是2.70.40.10。点击这个分类代码,可以获得各层次具体的结构分类信息以及各种结构相关分析信息。

image-20200424174639036

结果页面的下半部分还提供聚类图。这里,CATH 把所有拥有2.70.40.10结构分类的结构域,根据他们的序列相似度不同,进行了聚类(如下图)。不同深浅的圈代表不同的序列相似度。通过这张图,我们可以了解到具有相同结构分类的蛋白质他们在序列水平上的亲缘关系远近。

image-20200424174935809

此外,CATH 还从2.70.40.10 这个结构分类里挑出了19 个有代表性的结构域,并且把他们的3D 结构叠加在了一起(图3)。从这个图上,我们可以看到这个结构分类的总体特征以及差异产生的位置

image-20200423175418008

三、结构分类数据库SCOP 2

SCOP 数据库与CATH 类似,也属于蛋白质结构分类数据库,但SCOP 的分类原则更多考虑蛋白质间的进化关系,而且分类主要依赖于人工验证。

和CATH 一样,SCOP 的结构分类也基于四个层次。

  • 第一层也叫Class,也是基于二级结构成分分类。

  • Class 之下是Fold,主要考虑结构的空间几何关系。

  • 再往下是Superfamily,基于远源的蛋白质进化关系分类。

  • 最后是Family,基于近源的蛋白质进化关系分类。

注意:SCOP 和CATH 里面都有提到Superfamily这个词,但两者的含义并不相同。CATH 里Superfamily 是指的从C 到A 到T 再到H 这样四层的一个精细结构分类。而Scop 中,Superfamily 是结构分类的第三个层次的名称。

目前,SCOP 已升级为SCOP2SCOP2 的主页上也有搜索条,可以查看某一个PDB 结构的结构分类。

搜索结果中的第2 到第5 条,就是该蛋白质结构的四层分类。

第一层Class,第二层Fold,第三层Superfamily,第四层Family。

第一层Class 之上是SCOP 数据库的根。

第4 层family 之下是这个蛋白质的名字,再往下是所属物种。

虽然从这个谱系上看有7 个层次,但实际上真正的结构分类只有中间四层。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351