一、文章信息
发表杂志名称:Journal of Translational Medicine
中文标题:一种用于精准泛癌分类的多表征深度学习框架
英文标题:A multi-representation deep-learning framework for accurate multicancer classification
影响因子:7.5
发表日期:2025年11月19日
二、研究概述
本研究针对现有泛癌分类方法局限于少数癌症类型、仅采用单一基因组表征形式的问题,提出了名为GraphVar的多表征深度学习框架。该框架整合了突变衍生的影像特征和数值基因组特征,通过ResNet-18提取影像层面特征、Transformer编码器建模数值特征,并经融合模块整合双模态信息。在涵盖33种癌症类型、10,112名患者的队列中,GraphVar实现了99.82%的准确率、99.85%的精确率、99.82%的召回率和99.82%的F1分数。通过Grad-CAM分析验证了模型的可解释性,能定位基因水平的分子模式;基于KEGG的通路富集分析证实了模型识别基因的功能相关性。研究表明,GraphVar是稳健且可解释的泛癌分类工具,为精准诊断和治疗策略提供支持,具有潜在的转化应用价值。
三、论文核心内容解读
(一)研究目标与解决的实际问题
核心研究目标:开发并验证一种整合互补性突变衍生特征的多表征深度学习框架,实现高精度的泛癌分类。
解决的实际问题:
现有癌症分类方法多局限于有限癌症类型,难以满足泛癌诊断需求;
传统方法多将基因组信息编码为单一表征形式,无法捕捉突变的空间背景等关键特征,导致分类性能受限;
癌症异质性显著,基于单一分子特征的分类方法难以全面反映肿瘤的分子特征,影响诊断准确性;
缺乏兼具高准确率与可解释性的泛癌分类工具,难以支撑临床精准诊断与治疗决策。
(二)研究方法与目的(表格汇总)
表1 数据制备相关方法
| 方法 | 具体内容 | 目的 |
|---|---|---|
| 数据来源 | 从TCGA数据库获取MAF格式体细胞变异数据 | 获取大规模泛癌样本数据基础 |
| 数据筛选 | 去除重复样本,验证样本唯一性 | 保证数据完整性与冗余性 |
| 数据划分 | 70%训练集、10%验证集、20%测试集,分层抽样 | 避免数据泄露,保证各集癌症类型比例一致 |
表2 特征构建相关方法
| 方法 | 具体内容 | 目的 |
|---|---|---|
| 变异图谱构建 | 编码SNP(蓝)、INS(绿)、DEL(红)为像素强度,按染色体定位排列为265×265矩阵 | 捕捉突变的空间分布与类型特征 |
| 数值特征矩阵构建 | 整合30个群体等位基因频率+6种突变谱(C>A、C>G等) | 提供定量基因组特征补充 |
表3 模型架构相关方法
| 方法 | 具体内容 | 目的 |
|---|---|---|
| 影像特征提取 | 采用ResNet-18骨干网络处理变异图谱 | 提取高维空间特征 |
| 数值特征建模 | 采用Transformer编码器(3层、4个注意力头)处理数值矩阵 | 捕捉特征间长程依赖关系 |
| 特征融合 | 拼接双分支输出特征,输入全连接层 | 整合双模态信息,提升分类性能 |
| 模型优化 | Adam优化器(学习率0.001)、StepLR调度器、Dropout(0.5) | 提升模型泛化能力,避免过拟合 |
表4 模型评估与验证方法
| 方法 | 具体内容 | 目的 |
|---|---|---|
| 性能评估 | 计算准确率、精确率、召回率、F1分数、AUC-PR | 全面评估分类性能 |
| 可解释性分析 | Grad-CAM生成激活图,筛选重要基因(阈值0.5) | 揭示模型分类的分子基础 |
| 功能验证 | KEGG通路富集分析(DAVID平台) | 验证模型识别基因的生物学相关性 |
| ablation实验 | 单独验证单模态、不同融合策略、编码方式的性能 | 明确各组件对模型性能的贡献 |
(三)实验/分析设计与逻辑关联
1. 数据设计逻辑(对应figure1A)
设计思路:以TCGA数据库为数据源,覆盖33种癌症类型的10,640个初始样本,经严格筛选后保留10,112个唯一样本。采用分层抽样方式划分数据集,确保训练、验证、测试集中各癌症类型的比例一致,避免因样本分布不均导致的模型偏倚。
设计原因:TCGA数据库是全球最大的癌症基因组数据库之一,能提供多样化的泛癌样本与完整的体细胞变异信息,为泛癌分类研究提供可靠数据支撑;分层抽样可保证模型在不同数据集上的评估结果具有一致性和可靠性。
结果:获得高质量、无冗余的泛癌数据集,为后续模型训练与验证奠定基础。
2. 模型架构设计(对应figure1B)
设计思路:构建双分支深度学习架构,分别处理影像化的变异图谱和量化的数值特征矩阵,最终通过特征融合实现分类。其中,变异图谱分支捕捉空间特征,数值矩阵分支提供定量补充,双模态融合实现优势互补。
设计原因:单一表征形式无法全面反映基因组变异的复杂特征,空间特征与定量特征具有互补性;ResNet-18在图像特征提取中表现优异,Transformer擅长捕捉序列数据的长程依赖,两者结合可充分挖掘不同类型特征的价值。
-
结果:形成GraphVar多表征框架,能够同时处理并整合两种互补特征,为高精度分类提供架构支撑。
3. 性能评估设计(对应figure2)
设计思路:采用多维度评估指标(准确率、精确率等),结合PR曲线、混淆矩阵分析,同时通过1000次非参数bootstrap抽样计算95%置信区间,评估模型稳定性;针对罕见癌症类型单独分析性能。
设计原因:泛癌数据存在类别不平衡问题,仅用单一准确率难以全面评估模型性能;bootstrap抽样可量化模型性能的统计不确定性;罕见癌症样本量少,其分类性能是模型泛化能力的关键指标。
-
结果:模型整体表现优异(准确率99.82%),微平均AUC-PR达0.998,仅罕见类型(如KICH、THYM)性能略有下降,证实模型整体稳健性。
4. 可解释性分析设计(对应figure3、figure4A-B)
设计思路:采用Grad-CAM生成激活热图,定位对分类决策关键的基因位点;针对BLCA、BRCA、KIRC三种代表性癌症,验证模型识别的高重要性基因与已知癌基因的一致性。
设计原因:深度学习模型常被视为“黑箱”,缺乏可解释性限制其临床转化;通过验证模型识别基因与已知癌基因的匹配度,可证实模型分类并非随机预测,而是基于生物学相关特征。
-
结果:热图显示同一癌症类型样本具有一致的基因重要性模式,不同癌症类型模式差异显著;模型识别出TP53、BRCA1、VHL等已知驱动基因,证实模型的可解释性与生物学合理性。
5. ablation实验设计(对应figure4C-D)
设计思路:分别验证单模态(仅变异图谱/仅数值特征)、不同融合策略(拼接/注意力融合等)、不同编码方式(彩色/灰度/二进制)对模型性能的影响。
设计原因:明确各组件在模型中的作用,验证多表征融合的必要性;筛选最优的融合策略与特征编码方式,为模型优化提供依据。
结果:变异图谱分支是主要预测信号来源(F1=99.55%),数值特征提供互补价值;简单拼接融合效果最优;编码变异类型对分类至关重要,二进制编码性能显著下降(F1=55.53%)。
6. 模型对比与功能验证设计(对应figure4E-F)
设计思路:对比不同图像骨干网络(ResNet-18/ResNet-50/InceptionV3)与数值处理模块(Transformer/线性层)的组合性能;对高重要性基因进行KEGG通路富集分析。
设计原因:筛选最优模型架构组合;验证模型识别基因的功能相关性,进一步支撑模型的生物学合理性。
结果:ResNet-18+Transformer组合性能最优;KIRC高重要性基因富集于PI3K-Akt等癌症通路,BRCA基因富集于乳腺癌相关通路,证实模型特征的功能意义。

(四)研究总结
本研究提出了一种创新的多表征深度学习框架GraphVar,通过整合变异图谱的空间特征与数值矩阵的定量特征,实现了33种癌症类型的高精度分类。研究通过严格的数据筛选与合理的数据集划分保障了模型训练的可靠性,采用ResNet-18与Transformer结合的双分支架构充分挖掘了不同类型特征的价值,经多种评估方法验证,模型准确率、精确率等核心指标均达99.8%以上。同时,通过Grad-CAM可解释性分析与KEGG通路富集验证,证实模型的分类决策基于生物学相关的驱动基因与通路,解决了传统深度学习模型“黑箱”问题。ablation实验进一步明确了各组件的贡献,为模型优化提供了依据。GraphVar不仅突破了传统单一表征分类方法的局限,实现了泛癌的高精度分类,还兼具良好的可解释性与生物学合理性,为临床泛癌精准诊断、治疗策略制定提供了有力工具,具有重要的转化医学价值。未来需通过多中心临床队列进一步验证模型的泛化性,并整合拷贝数变异、表观遗传等更多模态数据,持续提升模型性能与临床适用性。


