相分离数据库实操指南①:如何利用金标准数据库PhaSePro寻找已有文献报道的驱动蛋白?

引言

上篇我们系统盘点了相分离研究四大主流数据库的定位与特色,并厘清了“脚手架蛋白”与“客户蛋白”这对关键概念。但光知道定位还不够 ——如何真正上手操作,如何在真实科研场景中灵活运用,才是提高效率的关键。

作为首个专门收录液-液相分离(LLPS)驱动蛋白的综合性数据库,PhaSePro自2020年发布以来,已成为该领域的核心资源。与一般数据库不同,PhaSePro不仅提供蛋白质序列、驱动区域、形成的无膜细胞器(MO)等基础信息,还引入了四套专为LLPS 定制的控制词汇(CVs),对无膜细胞器的功能、分子互作类型、LLPS 决定因素及液态证据进行标准化标注,大大提升了数据的可比性和可计算性。

本篇就从实操层面出发,详细拆解PhaSePro的每个功能模块,并结合典型科研场景,展示如何高效利用该数据库。


1.首页导航

进入PhaSePro首页

▶ 顶部搜索栏支持关键词检索(输入蛋白名称、基因名或UniProt ID均可)

▶ 首页提供两个精选示例入口 —— FUS和TDP-43,点击即可查看完整的条目页面,是新手快速了解数据结构的最佳路径。


2.浏览(Browse)功能

点击首页的“Browse”按钮,可以浏览PhaSePro收录的所有脚手架蛋白条目。页面中有一个包含所有条目的表格,支持多维度筛选(如物种、实验类型、形成的无膜细胞器等),也支持关键词或正则表达式搜索。点击任意行即可进入对应条目页面。


3.数据下载与API

数据库提供两种数据获取方式:

① 批量下载:在Browse页面筛选出需要的条目集合后,可以JSON、XML或TSV格式下载;也可以直接下载整个数据库的完整快照。

② REST API:可获取单个条目的JSON格式数据,适合需要批量提取或程序化处理的用户。


4.条目页面解析

以FUS为例,条目页面提供了以下关键信息模块:

① 基础信息(Basic information)

最上方的界面对应这一模块,主要存储蛋白质的通用背景信息:

▶ 来自UniProt的蛋白名称、基因名、物种、NCBI分类号、Ensembl转录本ID;

▶ 形成的无膜细胞器(使用GO细胞组分术语标注);

▶ 实验证据类型(in vitro、in vivo或两者兼有);

▶ 是否为多组分系统的一部分(若需其他蛋白共同驱动LLPS,会列出“joined entries”);

LLPS驱动区域:明确标注在UniProt序列上的起止位置,以及该区域的组成/结构域/无序性特征描述。

② 图形化展示(Graphical representation)

第二个界面模块,用可视化方式呈现蛋白质的关键特征:

ProtVista viewer:展示蛋白质的全长序列,并叠加注释

a.本数据库标注的LLPS驱动区域(高亮显示);

b.来自Pfam的保守结构域;

c.来自IUPred2A的固有无序区预测;

d.来自PhosphoSitePlus的翻译后修饰(PTM)位点(磷酸化、甲基化、乙酰化、泛素化等);

e.来自UniProt的序列变异和疾病突变。

LiteMol viewer:如果存在与LLPS驱动区域重叠的PDB结构,可以在此进行3D可视化。重叠区域以蓝绿色高亮显示,其余部分为米黄色。

③ LLPS的功能描述(Functional description of LLPS)

第三个文本模块,聚焦相分离形成的细胞器本身:

▶ 对该相分离形成的无膜细胞器的功能进行自由文本描述,并附有参考文献;

▶ 同时使用自定义CV(共8类)对功能进行分类,例如“保护性储存/储备库”、“活化/成核/信号放大/生物反应器”等。

④ LLPS的分子细节(Molecular details of LLPS)

第四个界面模块,深入解析相分离的分子机制:

结合伙伴:需要哪些蛋白或RNA才能发生LLPS(如RNA类型有专用模块说明);

其他决定因素:小分子浓度、pH、离子强度等;

分子相互作用类型:使用自定义CV标注(共19类),如“多价结构域-基序相互作用”、“卷曲螺旋形成”等;

驱动/调控LLPS的关键决定因素与机制:使用自定义CV标注(共6类)例如“是否依赖PTM”、“是否形成膜簇”等。

⑤ 调控与疾病关联(Regulation and connection with diseases)

第五个界面模块,展示LLPS的调控因素和疾病关联:

影响LLPS的PTM:列出经实验验证的修饰位点及对相分离的影响;

影响LLPS的可变剪接异构体:包括直接验证有影响的,以及虽未验证但序列变化位于LLPS驱动区域内的潜在调控异构体;

疾病突变:标注dbSNP编号、突变对LLPS的影响(若有实验数据),以及关联的OMIM疾病信息。

⑥ 实验信息(Experimental information)

最下方的文本模块,整理了支持 LLPS 结论的实验证据:

LLPS验证方法:描述证明该蛋白/系统能发生LLPS的实验手段,并链接到ECO(实验证据本体)术语;

液态特征证据:使用自定义CV(共7类)标注支持凝聚体为液态的证据,如“温度依赖性”、“分子动态交换”等。


5.候选蛋白页面(Candidates)

并非所有实验数据都足以完全确认一个蛋白是LLPS驱动者。PhaSePro专门设立了“Candidates”页面,收录那些有证据提示可能驱动LLPS、但尚不能完全确定的蛋白。该页面与Browse页面功能相同,支持筛选和下载,为你提供进一步验证的起点。


6.统计页面(Statistics)

点击“Statistics”可查看数据库的各种统计信息,例如:

▶ 拥有in vivo支持、in vitro支持或两者兼有的条目比例;

▶ 不同物种(真核、细菌、病毒)的分布;

▶ 自定义CV中各类术语的使用频率等。这些统计有助于把握领域整体趋势。


7.提交新数据(Annotate)

如果你研究的蛋白尚未被收录,欢迎通过首页的“Annotate”模块提交。你可以选择:

简易在线表单:填写蛋白名称、UniProt ID、文献PMID等基本信息;

详细注释模板:下载完整的Excel/Word模板,按照指南提交更全面的信息(包括驱动区域、实验条件、CV分类等)。

数据库团队承诺每年至少更新两次,并严格遵循GDPR。


8.示例场景

场景:想快速确认转录因子TAF15是否是已知的相分离脚手架蛋白

操作步骤:

① 在PhaSePro首页搜索栏输入“TAF15”

② 如果命中,点击进入条目页,查看其LLPS驱动区域、形成的MLO类型及支持文献

③ 如果未命中,说明TAF15尚未被PhaSePro收录——它可能是一名“客户蛋白”(自身不驱动相分离,但被招募进凝聚体),或相关驱动实验证据尚不充分

④ 可继续到PhaSepDB 3.0进行补充检索(见下篇),查看其是否以MLO相关蛋白的形式被收录


小结

PhaSePro通过人工curation与自动注释相结合的方式,为LLPS领域提供了高质量、标准化的脚手架蛋白数据资源。掌握其浏览、检索、条目解读及数据下载功能,是开展相分离生物信息学分析的基础。下一篇我们将进入另一个重要数据库 —— PhaSepDB 3.0,敬请期待。

数据库中收录的均为已有文献报道的已知驱动蛋白。若您的研究对象是尚未被注释的新蛋白,或希望在特定样本中系统筛选具有相分离倾向的候选分子,则需要借助实验手段进行高通量鉴定。数据库检索与实验筛选相结合,可大幅提升相分离研究的效率。


⬇️⬇️⬇️

B-isox MS:相分离蛋白初筛首选解决方案

B-isox MS一站式高通量筛选服务,依托二十年质谱技术沉淀,实现相分离倾向蛋白的无偏精准鉴定,覆盖从样本处理、蛋白富集到质谱检测的全实验流程,更配套IDR区域预测评分、蛋白互作网络分析等深度数据挖掘。


参考资料

Mészáros B, Erdős G, Szabó B, et al. PhaSePro: the database of proteins driving liquid-liquid phase separation. Nucleic Acids Res. 2020;48:D360-D367.

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容