hallmark gene sets 是什么

O、Hallmark Gene Sets(标志基因集)详解


1. 定义与背景

Hallmark Gene Sets 是一组精心筛选的基因集合,每个集合代表一种特定的生物学过程、功能或疾病机制。例如,它们可能对应“细胞增殖”“炎症反应”或“DNA修复”等关键生物学活动。这些基因集由美国Broad研究所的团队在2015年开发,并集成在分子签名数据库(MSigDB)中,是生物信息学中常用的分析工具。

为什么需要它们?
在生物学研究中,科学家经常需要分析成千上万个基因在特定条件下的行为(如癌症 vs 正常组织)。直接分析单个基因犹如大海捞针,而通过预定义的基因集(如Hallmark),可以将基因按功能归类,简化分析过程。


2. 构建方法:如何提炼出“精华”?

Hallmark Gene Sets并非简单的文献汇总,而是通过以下步骤提炼而成:

  • 多数据源整合:合并来自多个权威数据库(如GO、KEGG)和实验数据的基因集。
  • 去除冗余:通过算法合并相似基因集,避免重复(例如,将10个与“凋亡”相关的基因集合并为1个)。
  • 验证一致性:利用基因表达数据筛选在多种实验中表现一致的基因,确保生物学意义明确。

最终,Hallmark集合从数千个原始基因集中提炼出约50个“精华”集合,每个都代表一个明确且无冗余的生物学主题。


3. 主要特点

  • 简洁高效:50个集合覆盖核心生物学过程,避免分析时的信息过载。
  • 高可信度:每个基因集中的基因经过严格验证,减少假阳性干扰。
  • 功能明确:名称直接反映功能(如HALLMARK_ANGIOGENESIS代表“血管生成”)。

4. 应用场景

  • 基因集富集分析(GSEA):快速发现实验条件下显著激活或抑制的生物学通路。
  • 功能注释:帮助解读高通量实验(如RNA测序)结果,回答“这些基因变化意味着什么?”。
  • 疾病机制研究:识别癌症、免疫疾病等背后的关键通路。

5. 如何获取与使用?

  • 数据库来源:通过MSigDB官网(https://www.gsea-msigdb.org)免费获取。
  • 分析工具:搭配GSEA软件或R/Python包(如clusterProfiler)直接调用。

6. 示例说明

HALLMARK_APOPTOSIS(细胞凋亡)为例:

  • 包含基因:约200个与程序性细胞死亡相关的基因(如CASP3、BCL2)。
  • 应用场景:若某癌症样本中这些基因显著高表达,提示凋亡通路可能被激活。

7. 与其他基因集的对比

  • GO/KEGG:覆盖更全面但冗余多(例如,GO有数万个术语),Hallmark更精炼。
  • 其他MSigDB子集:如“C2”(人工整理的通路)或“C5”(GO术语),Hallmark是其优化版。

以下是Hallmark Gene Sets中50个基因集的详细分类、功能解读及典型应用场景(部分)。


一、Hallmark基因集的分类与核心功能

Hallmark的50个基因集可归纳为7大生物学主题,以下是每类的代表基因集及其作用:


1. 细胞增殖与死亡调控

  • HALLMARK_APOPTOSIS(细胞凋亡)

    • 关键基因:CASP3、BCL2家族、FAS
    • 功能:调控程序性细胞死亡,与癌症治疗抵抗相关。
    • 应用:化疗后肿瘤细胞凋亡程度评估。
  • HALLMARK_P53_PATHWAY(p53通路)

    • 关键基因:TP53、CDKN1A (p21)、BAX
    • 功能:DNA损伤响应与细胞周期阻滞,抑癌核心机制。
    • 应用:评估肿瘤基因组稳定性。
  • HALLMARK_MITOTIC_SPINDLE(有丝分裂纺锤体)

    • 关键基因:AURKA、PLK1、CEP55
    • 功能:调控染色体分离,异常导致非整倍体(常见于癌症)。
    • 应用:乳腺癌、肺癌的增殖活性标志。

2. 代谢与能量平衡

  • HALLMARK_OXIDATIVE_PHOSPHORYLATION(氧化磷酸化)

    • 关键基因:NDUF系列(线粒体复合物I)、ATP合酶
    • 功能:线粒体能量生成,与衰老、神经退行性疾病相关。
    • 应用:代谢重编程研究(如癌细胞的Warburg效应)。
  • HALLMARK_FATTY_ACID_METABOLISM(脂肪酸代谢)

    • 关键基因:ACSL1、CPT1A、PPARα
    • 功能:脂肪酸分解与合成,影响肥胖、糖尿病。
    • 应用:肝脏疾病或代谢综合征中的脂代谢异常分析。
  • HALLMARK_GLYCOLYSIS(糖酵解)

    • 关键基因:HK2、LDHA、PGK1
    • 功能:无氧糖代谢,肿瘤微环境酸化的驱动因素。
    • 应用:癌症预后标志(高糖酵解提示侵袭性强)。

3. 免疫与炎症反应

  • HALLMARK_INFLAMMATORY_RESPONSE(炎症反应)

    • 关键基因:IL6、TNFα、NF-κB通路基因
    • 功能:促炎因子信号传导,参与感染、自身免疫病。
    • 应用:类风湿关节炎、COVID-19重症患者免疫风暴分析。
  • HALLMARK_IL6_JAK_STAT3_SIGNALING(IL-6/JAK/STAT3信号)

    • 关键基因:IL6R、JAK2、STAT3
    • 功能:调控免疫细胞分化与肿瘤微环境重塑。
    • 应用:靶向JAK/STAT3的抑制剂疗效预测。
  • HALLMARK_COMPLEMENT(补体系统)

    • 关键基因:C3、C5AR1、CFB
    • 功能:先天免疫中的病原体清除,与肾病、AMD(黄斑变性)相关。
    • 应用:自身免疫性肾小球肾炎的分子机制研究。

4. 应激与损伤应答

  • HALLMARK_UV_RESPONSE(紫外线应答)

    • 关键基因:XPA、ERCC3、DDB2
    • 功能:修复UV诱导的DNA损伤,防止皮肤癌。
    • 应用:黑色素瘤患者的DNA修复能力评估。
  • HALLMARK_HYPOXIA(低氧反应)

    • 关键基因:HIF1A、VEGFA、CA9
    • 功能:适应低氧环境,促进血管生成(如肿瘤微环境)。
    • 应用:实体瘤(如胶质母细胞瘤)的缺氧区域标记。

5. 发育与分化

  • HALLMARK_EPITHELIAL_MESENCHYMAL_TRANSITION(EMT,上皮间质转化)

    • 关键基因:SNAI1、VIM、CDH2(N-cadherin)
    • 功能:胚胎发育与癌症转移的关键步骤。
    • 应用:预测肿瘤转移风险(如乳腺癌、结肠癌)。
  • HALLMARK_ANGIOGENESIS(血管生成)

    • 关键基因:VEGFA、ANGPT1、PDGFB
    • 功能:新血管形成,支持肿瘤生长与伤口愈合。
    • 应用:抗血管生成药物(如贝伐珠单抗)的疗效标志。

6. 信号通路与调控

  • HALLMARK_WNT_BETA_CATENIN_SIGNALING(Wnt/β-catenin信号)

    • 关键基因:CTNNB1(β-catenin)、AXIN2、TCF7L2
    • 功能:胚胎发育与干细胞维持,异常激活导致结直肠癌。
    • 应用:结直肠癌分子分型(MSI vs MSS亚型)。
  • HALLMARK_TGF_BETA_SIGNALING(TGF-β信号)

    • 关键基因:TGFB1、SMAD3、COL1A1
    • 功能:双重角色(抑癌早期 vs 促转移晚期)。
    • 应用:纤维化疾病(如肺纤维化)或转移性癌症研究。

7. 其他核心过程

  • HALLMARK_APICAL_JUNCTION(顶端连接)

    • 关键基因:CDH1(E-cadherin)、OCLN(occludin)
    • 功能:维持上皮细胞极性,失活导致细胞侵袭。
    • 应用:胃癌的E-cadherin缺失检测。
  • HALLMARK_CHOLESTEROL_HOMEOSTASIS(胆固醇稳态)

    • 关键基因:LDLR、HMGCR、SREBF2
    • 功能:调控胆固醇合成与吸收,与动脉粥样硬化相关。
    • 应用:他汀类药物靶点HMGCR的活性评估。

二、如何获取完整列表与基因详情?

  1. MSigDB官网:访问 GSEA-MSigDB,搜索“Hallmark”可下载全部50个基因集的基因列表(需免费注册)。

  2. R/Python工具

    • R语言:通过msigdbr包直接调用(示例代码):
      library(msigdbr)
      hallmark <- msigdbr(species = "Homo sapiens", category = "H")
      View(hallmark)
      
    • Python:使用GSEApyBioMart查询。
  3. 文件格式:每个基因集以.gmt格式存储,包含基因名与功能描述。


三、实际分析中的选择建议

  • 癌症研究:优先关注APOPTOSISHYPOXIAANGIOGENESISEMT
  • 免疫疾病:聚焦INFLAMMATORY_RESPONSEIL6_JAK_STAT3_SIGNALINGCOMPLEMENT
  • 代谢疾病:选择GLYCOLYSISFATTY_ACID_METABOLISMCHOLESTEROL_HOMEOSTASIS

四、注意事项

  • 版本差异:MSigDB持续更新,不同版本(如v7.5 vs v2023)的基因集会略有调整。
  • 物种限制:默认基于人类基因,若研究小鼠需转换同源基因(官网提供跨物种映射工具)。

掌握这50个基因集的功能,相当于获得了一张“生物学过程地图”,能快速定位实验数据中的关键机制。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,525评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,203评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,862评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,728评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,743评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,590评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,330评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,244评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,693评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,885评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,001评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,723评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,343评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,919评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,042评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,191评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,955评论 2 355

推荐阅读更多精彩内容