蛋白质ID映射 & 3D结构下载

最近需要做S.celevisiae数据集的相关操作,需要根据VEuPathDB数据库中酵母菌蛋白质的ID,获得其序列以及3D结构。

这里采用从UniProt数据库中获得其序列以及3D结构,因此,需要如下步骤:

  1. 将VEuPathDB中的id映射为UniProt中的ID

  2. 下载3D文件


1、ID映射

首先,进入UniProt官网,进入ID mapping功能界面

UniProt官网

进入界面后,在From database下拉栏中选择VEuPathDB数据库,To database下拉栏中选择UniProtKB。

然后将需要转换的VEuPathDB数据库中的ID写到框中,点击MAP IDs,开始进行转换。

ID mapping

查询完成后,会显示结果completed

ID mapping Completed

点击Completed,会进入到详情页面

  • 如果要研究特定物种/器官中的蛋白质,需要选择Popular organisms,我理解的是由于同一个蛋白质可能会出现在不同的物种/器官中,所以需要选择到特定场景中,以筛选蛋白质
  • 如果只是查询,可以点击Customize columns,选择需要在页面的详情表格中出现的数据
  • 如果需要将数据下载下来,做进一步的分析,点击Download
    ID mapping

点击之后,会出现下载页面,可以调整Format,以此来选择下载文件的格式

  • 默认是FASTA格式
  • 但是如果需要额外的详细信息,比如序列,AlphaFold数据库中的3D结构名称,就需要选择Excel等格式


    Download

在详情选择界面,如果点对号,相应的信息就会出现在下载的Excel文件中,比如我额外选择了Sequences -> Sequence以及External Resources -> 3D structure -> AlphaFoldDB

选择完成后,点击下载,就可以下载映射完成后的文件。


Sequence

3D structure

可以看到,下载好的Excel文件中,就会出现我们感兴趣的内容


Excel

2、AlphaFold 3D结构下载

进入AlphaFold官网,在搜索栏输入上面下载的Excel文件中对应蛋白质的AlphaFoldDB中的ID(也就是Entry,UniProt数据库中的ID),这里以第一个P32367为例。

搜索完成后,在Download中选择想要下载的文件格式,我选择的是PDB file

PDB file

下载完成后,就可以得到P32367蛋白质的3D结构数据

P32367

另外,AlphaFold也提供了下载整个物种/器官中所有蛋白质3D结构的地方,点击download

在页面中选择需要下载的物种/器官数据集


3D structure dataset

比如我们所感兴趣的酵母菌蛋白质数据集就出现在这里


S.cerevisiae
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容