
引言
液-液相分离(LLPS)已经成为细胞生物学领域最令人兴奋的研究方向之一。从核仁到应激颗粒,从转录调控到信号转导,蛋白质和核酸通过相分离自发组织形成无膜细胞器,在时空上精密调控着细胞内无数生化反应。而当相分离过程失调,则可能导致蛋白质的病理聚集或异常螯合,与神经退行性疾病、癌症等多种疾病紧密相关。
随着研究的爆炸式增长,海量数据散落在数千篇文献之中。各大数据库应运而生,但“究竟该选哪个”往往让刚入门的研究者感到困惑。今天,我就带大家梳理四个主流相分离研究数据库,帮你快速找到最适合自己研究场景的“利器”。
一、PhaSePro:精挑细选的“驱动蛋白”金标准库

PhaSePro是一个完全基于人工精筛的数据库,收录的全部是经过实验验证能够在体内或体外驱动LLPS的蛋白质/蛋白区域,相当于只收录相分离领域的“铁证”蛋白。目前收录了121个经过严格验证的LLPS驱动蛋白,涵盖生物物理驱动力、生物学功能及调控方式等多维度信息。值得关注的是,PhaSePro专门构建了LLPS领域的受控词表,大大提升了数据的标准化程度。
▶定位:如果只关心那些经过实验严格验证、能够自主驱动相分离的核心“脚手架”蛋白,PhaSePro是首选。
▶核心优势:数据质量极高(全部人工审核)、注释深度大(涵盖功能、疾病关联、翻译后修饰等)、数据标准化好(引入LLPS专用词表)。
▶主要局限:收录规模较小,仅聚焦于“驱动蛋白”而不包含“乘客蛋白/客户蛋白”。
【小贴士:脚手架蛋白 vs. 客户蛋白】
在液-液相分离研究中,无膜细胞器的组装依赖两类功能截然不同的蛋白质组分。
▶“脚手架蛋白”:也称驱动蛋白,是指能够通过其内在无序区域(IDRs)与多价弱相互作用网络,自主发生相分离并形成凝聚体核心骨架的蛋白质。
▶“乘客蛋白”或“客户蛋白”:自身不具备驱动相分离的能力,但可通过与脚手架蛋白发生特异性分子识别,被选择性地招募进凝聚体中,从而富集于特定无膜细胞器行使催化、信号传递等功能。
在挑选数据库和分析数据时,预先厘清目标蛋白究竟属于脚手架蛋白还是客户蛋白,是制定合理研究策略的关键前提。
二、LLPSDB v2.0:体外相分离实验条件的“百科全书”

LLPSDB专注于收集已发表文献中蛋白体外LLPS的完整实验条件信息。v2.0版本数据量较初版翻倍以上,新增了“Ambiguous system”分类,并对网站界面做了大幅优化。其最独特的价值在于收录了极为详尽的实验参数,覆盖273个条目中数百种蛋白质的具体相分离条件。用户还可以通过“相分离状态”选项,筛选“发生相分离”“未发生相分离”或“有相图”的条目,对于训练和验证相分离预测算法尤为实用。
▶定位:如果你想查找某个蛋白质在什么条件下会发生相分离—— 温度、盐浓度、pH、拥挤剂、是否需要核酸搭档,LLPSDB v2.0是最佳选择。
▶核心优势:实验条件信息最详尽(对做实验的研究者最有参考价值)、支持按相分离状态筛选、数据分类体系清晰(按蛋白类型、组分类型、组分数量等)。
▶主要局限:聚焦体外实验数据,不包含体内验证信息和细胞定位信息。
三、PhaSepDB 3.0:覆盖面最广的相分离“知识中枢”

PhaSepDB是目前最大的相分离综合数据库,在去年升级至3.0版本,采用大语言模型驱动的AI与人工协同工作流,实现数据的大幅扩充。其数据分为三个层次:
①相分离条目:来自低通量实验验证;
②MLO相关条目(低通量):来自精细实验;
③MLO相关条目(高通量):来自大规模筛选。
这一分层架构让研究者可以根据证据强度灵活筛选数据。3.0版的核心创新是蛋白质维度的汇总页面,可以综合来自多篇文献的信息,给出每个蛋白质相分离行为的全景视图。
▶定位:如果你想要一个涵盖面最广、既包含相分离蛋白又包含MLO相关蛋白的综合性平台,PhaSepDB 3.0是绕不开的选择。
▶核心优势:数据量最大(3484条专家审定条目,1849个PS相关蛋白)、证据分层清晰(可区分不同置信度)、蛋白汇总视图整合力强。
▶主要局限:部分条目注释深度不如PhaSePro精细;数据来源较杂,使用时需根据证据层级筛选。
四、PhaSeDis:相分离-疾病-药物三位一体的“桥梁数据库”

PhaSeDis基于北京大学李婷婷课题组此前开发的MloDisDB升级而来,将相分离条目从52个扩充至185个,覆盖多种疾病类型。每个条目详尽描述相分离因子如何通过相分离诱发病理状态、以及小分子化合物干预相分离的作用机制。PhaSeDis收录的小分子信息分为低通量和高通量实验证据两个层级,为相分离调控在疾病治疗中的应用提供了独特的数据支撑。
▶定位:如果你关心相分离如何驱动疾病,以及有哪些小分子可以干预相分离过程,PhaSeDis是唯一的选择。
▶核心优势:相分离-疾病-小分子三者关联(覆盖从基础机制到临床转化的完整链条)、机制描述详细、填补了相分离数据库在疾病方向的空白。
▶主要局限:目前收录条目数量有限(185个),覆盖的疾病和小分子范围仍在扩展中。
五、数据库选择指南
场景一:初步筛选某蛋白是否是相分离驱动蛋白
首选PhaSePro。如果你的目标蛋白在其中,那么恭喜你 —— 它是铁打的核心驱动蛋白。如果不在,说明还需要进一步实验验证或该蛋白可能是“客户蛋白”。
场景二:设计体外相分离实验,需要参考条件参数
首选LLPSDB v2.0。这里提供蛋白浓度、温度、pH值、盐浓度、拥挤剂种类、是否有核酸参与等一站式实验条件信息。
场景三:系统性研究某个细胞器或通路的相分离蛋白组成
首选PhaSepDB 3.0。利用其MLO分层分类系统,按细胞器(如应激颗粒、P小体、核仁等)浏览和搜索。
场景四:研究相分离与疾病的关系,寻找潜在药物靶点
首选PhaSeDis。在疾病机制和药物干预之间搭建了独特的知识桥梁。
场景五:多数据库交叉验证
理想的研究流程是从PhaSepDB 3.0获取全景 → 去PhaSePro确认核心驱动蛋白身份 → 到LLPSDB v2.0查看实验条件 → 最后在PhaSeDis排查疾病关联。

结语
正如一篇综述所评价的那样:“这些数据库在内容上既有互补也有重叠,共同构成了相分离研究的宝贵资源生态”。相分离数据库各有侧重、各有所长,合理搭配使用才能最大化研究效率。在下篇中,我将为大家带来这些数据库的详细实操指南,手把手教你如何在实际科研场景中玩转相分离数据库。
参考资料
1. You K, Li R, Lian R, et al. PhaSepDB 3.0: a comprehensive knowledgebase of phase separation-related proteins from AI-assisted curation. Nucleic Acids Res. 2026;54:D445-D450.
2. Mészáros B, Erdős G, Szabó B, et al. PhaSePro: the database of proteins driving liquid-liquid phase separation. Nucleic Acids Res. 2020;48:D360-D367.
3. Wang X, Zhou X, Yan Q, et al. LLPSDB v2.0: an updated database of proteins undergoing liquid-liquid phase separation in vitro. Bioinformatics. 2022.
4. Chen T, Tang G, Li T, et al. PhaSeDis: a manually curated database of phase separation-disease associations and corresponding small molecules. Genomics Proteomics Bioinformatics. 2025;23(1):qzaf014.