
人类蛋白质图谱(Human Protein Atlas,HPA)是一个总部位于瑞典的项目,于2003年启动,旨在利用多种组学技术(包括基于抗体的成像、基于质谱的蛋白质组学、转录组学和系统生物学)绘制人类细胞、组织和器官中所有蛋白质的图谱。现在的 HPA 数据库至少包括了9个大型的库。下面 2017 年的文章是其较早的版本,只包括了 Tissue/Cancer/Subcellular 三个库的信息,也算 HPA 数据库的入门学习材料

1 摘要
1、人类蛋白质图谱(Human protein atlas,HPA)是研究人类组织和细胞中蛋白质定位和表达的研究人员的重要工具。HPA 的核心是其独特的抗体库,该抗体库可以通过免疫组化和免疫细胞化学的方法绘制整个人类蛋白质组的图谱
2、利用这些方法,已经生成超过 1000 万张单细胞水平的蛋白质表达模式图像
3、基于抗体的方法与转录组学数据相结合,可以概览全局的表达谱
2 简介
1、解析所有人类蛋白质在器官、组织、细胞和亚细胞水平上的空间分布,将极大地增进我们对健康和疾病状态下人类生物学的理解。HPA 的目标是揭示每种人类蛋白质在不同人体组织、癌症类型和细胞系中的空间分布和表达情况。这种方法可以分析单个蛋白质以及属于器官和细胞器等结构的蛋白质列表,或者根据表达水平和组织分布对蛋白质进行分类,例如管家蛋白和组织高表达蛋白
2、HPA 项目于 2003 年启动,并于 2005 年发布了首个公共数据库,其中包含 700 种抗体的蛋白质表达数据。第 17 版本包含超过 25000 种抗体,这些抗体均通过了严格的抗原特异性和验证质量测试,从而收集了超过1000万张 IHC(免疫组化) 图像和82,000张高分辨率 IF(免疫荧光) 图像。目前 19628 个人类蛋白质编码基因中,超过 86% 的基因已被至少一种抗体靶向
3、第 17 版人类蛋白质图谱 (HPA) 分为三个子图谱(Fig1):组织图谱,利用 RNA-Seq 和免疫组化 (IHC) 技术,在组织微阵列 (TMA) 上描述 40 种非疾病人体器官中蛋白质的表达和定位;病理图谱,包含 17 种主要人类癌症类型的 RNA 和蛋白质表达数据;以及细胞图谱,利用 22 种细胞系的免疫荧光 (IF) 图像描述蛋白质在细胞器中的亚细胞定位,并包含 56 种不同细胞系的细胞系特异性基因表达数据。各个子图谱相互关联、相互补充。用户可以通过切换不同的子图谱,探索蛋白质的组织和器官分布、亚细胞定位以及与癌症的关系

免疫组化 (IHC) 与 免疫荧光 (IF) 技术核心对比
| 对比维度 | 免疫组化 (Immunohistochemistry, IHC) | 免疫荧光 (Immunofluorescence, IF) |
|---|---|---|
| 信号标记物 | 酶(如辣根过氧化物酶 HRP、碱性磷酸酶 AP) | 荧光基团 / 荧光染料(如 Alexa Fluor、FITC) |
| 显色/成像原理 | 酶催化底物(如 DAB)生成有色化学沉淀 | 传统或单/多光子激发光激发的彩色荧光信号 |
| 检测及观察设备 | 普通明场光学显微镜 | 荧光显微镜 / 激光共聚焦扫描显微镜 (CLSM) |
| 多重标记能力 | 较难。通常仅限单染或双染,颜色叠加易干扰 | 极佳。利用不同激发/发射波长轻松实现 3-4 色及以上的多通道联合染色 |
| 空间分辨率 | 较低。通常停留在组织与细胞群体层面 | 极高。结合共聚焦可达到亚细胞结构/细胞器级别的精确空间定位 |
| 样本保存性能 | 极佳。显色产物极稳定,切片在室温下可保存数年 | 较差。存在荧光淬灭特性,需避光冷冻保存,无法无限期留存 |
| 定量分析能力 | 较弱。多为半定量(如基于显色深浅的 H-Score) | 较强。可基于荧光光强度进行相对精确的定量分析 |
| 主要应用场景 | 临床病理诊断、肿瘤分型、常规组织形态学研究 | 细胞生物学机制研究、蛋白质共定位(Co-localization)、亚细胞定位 |
3 抗体验证
1、HPA 中通过实验确定的蛋白质定位结果的准确性取决于其主要试剂——抗体的质量。抗体需要具备高灵敏度和特异性才能获得可靠的数据,从而提供组织和细胞中蛋白质表达的最佳估计
2、根据抗体在不同验证实验中的表现,所有注释的可靠性均按四级评分:“validated”, “supported”, “approved”, “uncertain”。在 “approved” 和 “uncertain” 类别中,错误注释或脱靶结合的数量较高
4 组织图谱(Tissue Atlas)
1、2014 年组织图谱的主要版本新增了 RNA-seq 数据,每个基因页面都包含 mRNA 和蛋白质水平表达的全面总结
2、蛋白质表达数据涵盖 15297 个(78%)蛋白质编码基因,这些数据来源于基于抗体的蛋白质谱分析,该分析使用免疫组化 (IHC) 技术在组织微阵列 (TMA) 上进行。总共分析了 76 种不同的细胞类型,对应于 44 种非病变的人体组织类型,涵盖人体所有主要部位,并将数据以基于组织学的蛋白质表达水平注释形式呈现
3、 “RNA and protein expression summary” 概述了 HPA 项目生成的数据(Fig3)。分析的组织根据共同的功能特征分为13个不同的组,每个组都可以点击查看包含的组织列表。下方是单独的面板,分别展示了所有分析组织在三个不同RNA表达数据集中的组织特异性表达情况,包括蛋白质水平(“蛋白质表达概览”)和RNA水平(“RNA表达概览”)


5 病理图谱(Pathology Atlas)
1、病理图谱中,研究人员采用系统级方法,基于癌症基因组图谱(TCGA)的全基因组表达数据,分析了人类基因组与临床结果的关系。研究人员使用了来自8000名患者的RNA测序数据和临床元数据,这些患者涵盖了HPA中包含的20种主要癌症类型中的17种,以确定每种癌症类型中每个基因的RNA表达水平与总生存期之间的相关性。超过50万张Kaplan-Meier生存曲线图使得研究人员能够无偏倚地识别预后基因
2、在“蛋白质表达”部分,展示了免疫组化(IHC)染色癌组织的示例,并总结了不同癌症类型中IHC分析的蛋白质表达水平(Fig5C)

6 细胞图谱(Cell Atlas)
1、细胞图谱基于高分辨率免疫荧光(IF)图像,包含了12,003种蛋白质(占人类蛋白质组的61%)的空间分布信息。这些蛋白质被映射到32个亚细胞结构,从而描述了13个主要细胞器蛋白质组
2、超过一半的分析蛋白质(51.3%,6163种蛋白质)在多个细胞区室中被检测到。根据信号强度和在不同细胞系中的出现情况,对多定位蛋白质的主要位置和附加位置进行了注释。高分辨率的免疫荧光图像能够检测单个细胞间信号的差异。这些细胞间差异可能体现在信号强度上,表明不同细胞中蛋白质丰度不同;也可能体现在蛋白质定位在不同细胞间的差异


7 参考文献
Thul PJ, Lindskog C. The human protein atlas: A spatial map of the human proteome. Protein Sci. 2018 Jan;27(1):233-244.