引言

液-液相分离（LLPS）已经成为细胞生物学领域最令人兴奋的研究方向之一。从核仁到应激颗粒，从转录调控到信号转导，蛋白质和核酸通过相分离自发组织形成无膜细胞器，在时空上精密调控着细胞内无数生化反应。而当相分离过程失调，则可能导致蛋白质的病理聚集或异常螯合，与神经退行性疾病、癌症等多种疾病紧密相关。

随着研究的爆炸式增长，海量数据散落在数千篇文献之中。各大数据库应运而生，但“究竟该选哪个”往往让刚入门的研究者感到困惑。今天，我就带大家梳理四个主流相分离研究数据库，帮你快速找到最适合自己研究场景的“利器”。

一、PhaSePro：精挑细选的“驱动蛋白”金标准库

PhaSePro是一个完全基于人工精筛的数据库，收录的全部是经过实验验证能够在体内或体外驱动LLPS的蛋白质/蛋白区域，相当于只收录相分离领域的“铁证”蛋白。目前收录了121个经过严格验证的LLPS驱动蛋白，涵盖生物物理驱动力、生物学功能及调控方式等多维度信息。值得关注的是，PhaSePro专门构建了LLPS领域的受控词表，大大提升了数据的标准化程度。

▶定位：如果只关心那些经过实验严格验证、能够自主驱动相分离的核心“脚手架”蛋白，PhaSePro是首选。

▶核心优势：数据质量极高（全部人工审核）、注释深度大（涵盖功能、疾病关联、翻译后修饰等）、数据标准化好（引入LLPS专用词表）。

▶主要局限：收录规模较小，仅聚焦于“驱动蛋白”而不包含“乘客蛋白/客户蛋白”。

【小贴士：脚手架蛋白 vs. 客户蛋白】

在液-液相分离研究中，无膜细胞器的组装依赖两类功能截然不同的蛋白质组分。

▶“脚手架蛋白”：也称驱动蛋白，是指能够通过其内在无序区域（IDRs）与多价弱相互作用网络，自主发生相分离并形成凝聚体核心骨架的蛋白质。

▶“乘客蛋白”或“客户蛋白”：自身不具备驱动相分离的能力，但可通过与脚手架蛋白发生特异性分子识别，被选择性地招募进凝聚体中，从而富集于特定无膜细胞器行使催化、信号传递等功能。

在挑选数据库和分析数据时，预先厘清目标蛋白究竟属于脚手架蛋白还是客户蛋白，是制定合理研究策略的关键前提。

二、LLPSDB v2.0：体外相分离实验条件的“百科全书”

LLPSDB专注于收集已发表文献中蛋白体外LLPS的完整实验条件信息。v2.0版本数据量较初版翻倍以上，新增了“Ambiguous system”分类，并对网站界面做了大幅优化。其最独特的价值在于收录了极为详尽的实验参数，覆盖273个条目中数百种蛋白质的具体相分离条件。用户还可以通过“相分离状态”选项，筛选“发生相分离”“未发生相分离”或“有相图”的条目，对于训练和验证相分离预测算法尤为实用。

▶定位：如果你想查找某个蛋白质在什么条件下会发生相分离—— 温度、盐浓度、pH、拥挤剂、是否需要核酸搭档，LLPSDB v2.0是最佳选择。

▶核心优势：实验条件信息最详尽（对做实验的研究者最有参考价值）、支持按相分离状态筛选、数据分类体系清晰（按蛋白类型、组分类型、组分数量等）。

▶主要局限：聚焦体外实验数据，不包含体内验证信息和细胞定位信息。

三、PhaSepDB 3.0：覆盖面最广的相分离“知识中枢”

PhaSepDB是目前最大的相分离综合数据库，在去年升级至3.0版本，采用大语言模型驱动的AI与人工协同工作流，实现数据的大幅扩充。其数据分为三个层次：

①相分离条目：来自低通量实验验证；

②MLO相关条目（低通量）：来自精细实验；

③MLO相关条目（高通量）：来自大规模筛选。

这一分层架构让研究者可以根据证据强度灵活筛选数据。3.0版的核心创新是蛋白质维度的汇总页面，可以综合来自多篇文献的信息，给出每个蛋白质相分离行为的全景视图。

▶定位：如果你想要一个涵盖面最广、既包含相分离蛋白又包含MLO相关蛋白的综合性平台，PhaSepDB 3.0是绕不开的选择。

▶核心优势：数据量最大（3484条专家审定条目，1849个PS相关蛋白）、证据分层清晰（可区分不同置信度）、蛋白汇总视图整合力强。

▶主要局限：部分条目注释深度不如PhaSePro精细；数据来源较杂，使用时需根据证据层级筛选。

四、PhaSeDis：相分离-疾病-药物三位一体的“桥梁数据库”

PhaSeDis基于北京大学李婷婷课题组此前开发的MloDisDB升级而来，将相分离条目从52个扩充至185个，覆盖多种疾病类型。每个条目详尽描述相分离因子如何通过相分离诱发病理状态、以及小分子化合物干预相分离的作用机制。PhaSeDis收录的小分子信息分为低通量和高通量实验证据两个层级，为相分离调控在疾病治疗中的应用提供了独特的数据支撑。

▶定位：如果你关心相分离如何驱动疾病，以及有哪些小分子可以干预相分离过程，PhaSeDis是唯一的选择。

▶核心优势：相分离-疾病-小分子三者关联（覆盖从基础机制到临床转化的完整链条）、机制描述详细、填补了相分离数据库在疾病方向的空白。

▶主要局限：目前收录条目数量有限（185个），覆盖的疾病和小分子范围仍在扩展中。

五、数据库选择指南

场景一：初步筛选某蛋白是否是相分离驱动蛋白

首选PhaSePro。如果你的目标蛋白在其中，那么恭喜你 —— 它是铁打的核心驱动蛋白。如果不在，说明还需要进一步实验验证或该蛋白可能是“客户蛋白”。

场景二：设计体外相分离实验，需要参考条件参数

首选LLPSDB v2.0。这里提供蛋白浓度、温度、pH值、盐浓度、拥挤剂种类、是否有核酸参与等一站式实验条件信息。

场景三：系统性研究某个细胞器或通路的相分离蛋白组成

首选PhaSepDB 3.0。利用其MLO分层分类系统，按细胞器（如应激颗粒、P小体、核仁等）浏览和搜索。

场景四：研究相分离与疾病的关系，寻找潜在药物靶点

首选PhaSeDis。在疾病机制和药物干预之间搭建了独特的知识桥梁。

场景五：多数据库交叉验证

理想的研究流程是从PhaSepDB 3.0获取全景 → 去PhaSePro确认核心驱动蛋白身份 → 到LLPSDB v2.0查看实验条件 → 最后在PhaSeDis排查疾病关联。

结语

正如一篇综述所评价的那样：“这些数据库在内容上既有互补也有重叠，共同构成了相分离研究的宝贵资源生态”。相分离数据库各有侧重、各有所长，合理搭配使用才能最大化研究效率。在下篇中，我将为大家带来这些数据库的详细实操指南，手把手教你如何在实际科研场景中玩转相分离数据库。

参考资料

1. You K, Li R, Lian R, et al. PhaSepDB 3.0: a comprehensive knowledgebase of phase separation-related proteins from AI-assisted curation. Nucleic Acids Res. 2026;54:D445-D450.

2. Mészáros B, Erdős G, Szabó B, et al. PhaSePro: the database of proteins driving liquid-liquid phase separation. Nucleic Acids Res. 2020;48:D360-D367.

3. Wang X, Zhou X, Yan Q, et al. LLPSDB v2.0: an updated database of proteins undergoing liquid-liquid phase separation in vitro. Bioinformatics. 2022.

4. Chen T, Tang G, Li T, et al. PhaSeDis: a manually curated database of phase separation-disease associations and corresponding small molecules. Genomics Proteomics Bioinformatics. 2025;23(1):qzaf014.

四大相分离研究数据库盘点：PhaSePro / LLPSDB v.2.0 / PhaSeDis / PhaSepDB