影响因子:48.8
研究概述:癌症传统上按照其发生的器官或解剖部位进行分类,而在特定癌症类型内部,则通过组织学特征、形态学分级以及 AJCC/UICC 的 TNM 分期系统进行细分。这种癌症亚型分类可以为患者的预后提供信息,并指导治疗方法或手术干预。大规模的癌症基因组项目,如 TCGA揭示了癌症类型内先前未被识别的分子异质性和离散的亚群。这为通过定义癌症类型内的分子亚型以增强癌症分类提供了机会。分子亚型最终可能会补充甚至取代传统的组织病理学分类。然而,目前大多数癌症的分子亚型在临床应用方面仍处于起步阶段。为了将分子定义的亚型用于临床,需要简单、准确且可重复的临床检测方法,以便能够将新的肿瘤归入已定义的分子亚型分类体系中。因此,在本研究中,作者尝试弥合现有癌症队列中分子亚型的发现与将这些亚型标签应用于临床新诊断患者之间的差距。
作者利用五种不同的机器学习方法,训练了分类器模型,这些模型减少了特征冗余并限制或最小化了特征数量,同时采用交叉验证策略来减少过拟合并评估预测性能。作者基于 8,791 个 TCGA 样本,涉及 26 个不同癌症队列和 106 个亚型,生成了 412,585 个不同的分类器模型。这些模型结合了五种不同的数据类型,最终创建了一个包含 737 个公开可用、容器化的预测模型的在线资源。这些模型代表了每个癌症队列、五种训练算法和数据类型的最佳模型,为非 TCGA 患者肿瘤样本的临床分子亚型分类提供了丰富的基因特征资源。 <o:page></o:page>
具体流程如下: <o:page></o:page>
研究结果:
TCGA 肿瘤亚型定义与分类模型的开发
在临床中,肿瘤分类通常从已知的癌症类型开始,该类型通过组织病理学和解剖部位信息确定。因此,作者采用了一种以癌症类型为中心的亚型分类方法。作者检索了 TCGA 定义的分子亚型,这些亚型通过针对每个队列使用适当的数据类型和方法进行定义(下图)。对于具有部分重叠和相关亚型的癌症队列,作者对 TCGA 队列进行了合并,最终生成了 26 个独特的癌症队列。 <o:page></o:page>
作者为所有队列构建了亚型平衡的重复交叉验证折叠,并将其设置为训练集和测试集(图 A)。研究中应用了五种机器学习(ML)方法:AKLIMATE、CloudForest、SKGrid、JADBio和 subSCOPE(图 B)。SKGrid 和 JADBio 各自采用了嵌入式方法集合,因此本研究中隐式测试的算法数量远超过五种。对于 AKLIMATE、CloudForest、SKGrid 和 JADBio,每个癌症队列分别训练。相比之下,subSCOPE 的神经网络同时对所有癌症队列的亚型数据进行训练。作者使用相同的交叉验证折叠对所有分类器进行训练和测试,并将结果聚合为一个矩阵。随后,作者从测试折叠中生成性能统计数据,并保留分类特征以供进一步分析。鉴于“准确性”在预测模型文献中具有特定的统计意义,作者避免使用“准确性”一词的日常用法,而是采用了“性能”一词,其定义为整体加权 F1 分数。 <o:page></o:page>
定义亚型的数据类型影响预测性能和分类器选择的特征
在同一队列中,不同亚型之间的预测性能差异从 ESCC 和 TGCT 的 0.00 到 COADREAD 的 0.37 不等(图 A)。通过比较不同癌症类型的预测性能和所选特征,作者得出了以下四个显著结论:首先,TCGA中基于多组学或组织学定义亚型的癌症队列通常生成高度准确的分类器(图 A)。其次,对于大多数癌症类型,mRNA 是最佳模型中被选择的主要特征类型(图 B)。第三,对于最初使用突变(如 SKCM)或 DNA 甲基化(如 LGGGBM)定义亚型的癌症队列,最佳模型通常选择相应的数据类型作为主要特征(图 B)。第四,对于使用全基因组特征的汇总统计数据(如突变负荷、染色体不稳定性和 CpG 岛甲基化表型(CIMP))定义的亚型(如 GEA 和 COADREAD),由于本研究基于单个基因中心的特征训练,因此较难捕获这些特征,导致生成的分类器性能相对较低。于是,作者进一步研究了所开发的 BRCA 亚型 mRNA 分类器是否能够准确预测两组独立乳腺癌队列中的 PAM50 亚型分配标签。所使用的数据集包括 METABRIC和 AURORA乳腺癌队列,这两个队列分别呈现了作者预计在将模型应用于其他研究时可能遇到的挑战:METABRIC 数据通过不同的平台(基于表达的微阵列)生成,而 AURORA 则为一个包含福尔马林固定、石蜡包埋(FFPE)样本的小队列。作者将 SK Grid 和 AKLIMATE 的 mRNA 模型应用于转换后的 METABRIC 数据,并获得了与原始 METABRIC 研究中的 PAM50 亚型分配高度一致预测结果(图C-D)。AKLIMATE 模型为每个样本的每个亚型分配输出了预测概率。作者通过估算每个样本在前两个亚型预测之间的概率差异,推断出 AKLIMATE 对该样本亚型预测的置信度。在样本亚型预测不明确的情况下,前两个预测亚型的概率可能会非常接近,从而导致较小的概率差异。研究发现,该预测置信度的估算值与原始 METABRIC 分配中获得的轮廓分数高度相关,特别是在 Luminal A和 Basal-like 亚型(图 E)。 <o:page></o:page>
更多输入数据类型或特征数量的增加并未提升模型性能
作者通过五种不同数据类型(突变、CNV、mRNA、miRNA 和 DNA 甲基化)开发了 26 个癌症队列的亚型分类模型。为了评估多组学数据对模型性能的贡献,作者对多种训练方法进行了测试。在训练集和验证集中发现,更多的数据类型或更高的特征数量并不一定提升模型的整体性能。以 mRNA 数据为例,尽管单一数据类型的模型在大多数癌症队列中表现优异,但整合其他数据类型并未显著改善性能(图 A)。此外,突变和 CNV 数据在某些癌症队列(如 SKCM 和 LGGGBM)中表现出较高的预测性能,但它们在大多数癌症队列中的贡献有限。对于特征数量的影响,作者发现,尽管增加分类器所用特征的数量可以捕获更多的潜在生物学信息,但过多的特征可能导致模型复杂度增加,从而带来过拟合的风险。在本研究中,最佳模型通常由较少数量的特征驱动。例如,对于某些癌症队列,顶级模型只需 10-50 个特征即可获得高水平的预测性能(图 B)。通过对比五种机器学习方法,发现特征数量的优化与训练算法的选择同等重要,因为某些算法(如 AKLIMATE 和 SKGrid)更擅长处理少量关键特征,而其他算法(如 CloudForest)更适合应对高维数据。
<o:page></o:page>
mRNA 特征在大多数癌症类型的顶级模型中占主导地位
在 TCGA 数据集中,作者分析了最佳模型中被选为特征的数据类型。结果显示,mRNA 特征在大多数癌症队列的顶级模型中占据主导地位(图 A-B)。特别是在 BRCA、LUAD、PRAD 和 THCA 等癌症类型中,mRNA 特征被一致认为是预测分子亚型的核心驱动因素。这表明,转录组数据可能包含反映肿瘤分子亚型之间差异的最重要信息。尽管其他数据类型(如突变、CNV 和 DNA 甲基化)在某些特定癌症中也表现出了较高的重要性,但它们通常不能单独超越 mRNA 数据的预测性能。例如,在 LGGGBM 和 SKCM 队列中,由突变数据定义的亚型在某些模型中占据较高权重,但在大多数情况下,结合 mRNA 数据的模型性能更优。此外,在 GEA 和 COADREAD 等癌症中,由甲基化模式定义的 CIMP 亚型在模型中的表现依赖于甲基化数据,而非 mRNA 数据。进一步的分析表明,mRNA 特征的优势不仅体现在性能上,还在于它们具有较高的跨队列稳定性和广泛的适用性。作者发现,即使在其他数据类型未被测序或质量较差的情况下,基于 mRNA 数据的模型依然能够实现准确的亚型预测。
机器学习献表明,对于高维数据集,同一方法找到可重复特征集可能会很困难。例如,高度相关的特征(如共调控基因)可能加剧这一问题。然而,当两个或多个 ML 方法选择相同的特征时,该特征可能提供了一个特别强的信号,可用于亚型分类。在对每种方法的最佳模型所选择的特征进行比较后,作者发现特征选择较少的模型通常显示出更强的特征重叠。例如,在 BRCA 队列中,SK Grid 方法选择了最少的特征(n = 9)(图 A),且所有这 9 个特征至少与另一个 BRCA 模型共享。大多数特征仅被单一方法选择,这些独特特征可能代表更大相关特征集的成员,这些特征集捕捉到了相同的生物学信息。对于每个癌症队列的亚型,作者将由两个或更多方法选择的特征定义为核心特征集。研究发现,这些核心特征集在生物学主题中显著富集。例如,在 BRCA 亚型中,所有五种方法都选择了两个 mRNA 特征 ESR1 和 FOXC1(图 A)。在 COADREAD 亚型中,DNA 甲基化特征在大多数 ML 方法中占主导地位(图 B),这与亚型定义中 DNA 甲基化的强大影响相一致。许多 DNA 甲基化特征以前曾被报道为在 CIMP 高表型的结直肠腺癌中发生高甲基化。特别是 MLH1 启动子甲基化——这种甲基化与大多数散发性微卫星不稳定病例有关。对于 SKCM 亚型,核心特征集与最初亚型定义中使用的体细胞突变(NRAS、BRAF 和 NF1)相一致(图 C)。LGGGBM 亚型最初通过首先将病例分为 IDH1/IDH2 突变和野生型病例,然后进一步利用 DNA 甲基化特征和组织学在这些组内定义亚型,共生成三种 IDH 突变亚型和四种 IDH 野生型亚型。有趣的是,对于 LGGGBM,分类方法主要选择了 DNA 甲基化特征(图 D),而没有识别出 IDH1/IDH2 突变,这可能是因为 IDH 突变状态横跨多个亚型。
分类器特征集在共同的通路上趋于一致
作者研究了由两种或更多模型选择的核心特征集是否代表了与生物过程富集相关的基因。作者绘制了 COSMIC 数据库中已知癌症相关基因的位置,并将其投影在 PathwayCommon提供的综合通路集合的二维图上,作为参考背景,用于比较分类器选择的特征(图 A)。结果显示,BRCA、LGGGBM 和 COADREAD 的分类器中被多种方法选择的基因特征在投影图中形成了聚类,这表明这些基因可能参与相同的通路(图 A)。为了可视化和量化通路富集的程度,作者将基因及其通路关系显示为密度云图,使功能相关的基因形成密集区域,作者将这些区域称为“峰顶”(图 B)。COSMIC 的峰顶(图 B)显示了与癌症生物学中已知突变相关的区域。随后,作者将分类器模型中选择的基因特征映射到相同的二维通路投影图上,并识别出 BRCA、LGGGBM 和 COADREAD 分类器特征的峰顶(图 B)。那些与 COSMIC 峰顶重合的分类器特征峰顶代表了来自已确立在癌症生物学中发挥作用的通路的特征聚类。在 BRCA 的情况下,第二密集的峰顶(图 B)包括雌激素受ER信号通路的基因,这与 COSMIC 中 ER 信号通路峰顶重叠,该通路在区分腔型与基底型乳腺癌方面具有重要作用。相比之下,BRCA 亚型分类的主要峰顶涉及 Rho/CDC42 通路,该通路未与 COSMIC 中的任何主要聚类重叠,但仍然代表了一组与细胞增殖相关的特征,用于区分侵袭性基底样肿瘤和腔型肿瘤。作者假设,如果由不同模型选择的基因特征反映了相关的生物学,它们在网络拓扑空间中的距离将比随机情况更接近。作者利用相同的 PathwayCommons 数据集,测量了每种方法的基因特征列表与其他方法的基因特征列表之间的通路距离(图 C)。结果显示,大多数方法为 BRCA、LGGGBM 和 COADREAD 模型选择的基因特征比随机情况下的距离更近(图 6C)。这些结果表明,亚型分类的等效预测特征可能源于生物学通路空间中的基因共存结构。每个基因的亚型特异性表达信号可通过标准化信噪比(SNR)表示。作者按 SNR 降序排列峰顶中的基因,生成了一个“帆状”图形(图 D)。通常被选择的核心特征倾向于聚集在帆的左侧,表明这些特征具有高 SNR,是强大的单一预测因子。而某些低 SNR 特征也被选择,它们可能与其他特征结合时提供正交分类信息。
训练分类器需要多少样本
作者利用针对 26 个不同癌症队列的已训练模型资源,这些队列涵盖了不同的规模和复杂性,以估算在给定肿瘤类型中准确分类亚型所需的训练样本数量。分类器模型的预测性能作为训练集大小的函数可能会受到模型选择、提供的特征数据集以及分类标签准确性的影响。作者对原始输入数据进行了子采样,并多次重复分类器训练,以确定在减少输入样本情况下的分类性能。研究发现,这种趋势在所有癌症队列中一致存在(图A-B)。在队列层面,提供约 150 个训练样本似乎足以接近模型性能的最大值。对于大多数癌症来说,超过这一样本规模并不会显著提高亚型分类器的准确性。例如,如果使用仅 50 个样本训练得到的加权 F1 分数为 0.70,那么即使增加两到三倍的样本数量,也很可能无法使加权 F1 分数超过 0.80,性能仅能得到有限的提升。因此,在这些情况下,应该考虑使用不同的数据类型(例如蛋白质组学)或重新定义亚型,而不仅仅是增加相同数据类型的样本数量。值得注意的是,所有队列的性能与样本大小之间的曲线大致呈现相同的形状(图 B),表明非线性回归拟合该曲线可以预测未来的亚型分类性能。作者评估了 87 种可能的拟合函数,发现 Burr Type XII 分布能够对图 7B 中 15 个至少包含 250 个样本的队列的曲线提供最接近的拟合(图 C)。对于一个前瞻性收集样本的癌症队列,作者发现 70 个样本足以推断出可靠的曲线并估算分类性能。为了说明性能如何被外推,作者将该函数应用于肾上腺皮质癌(ACC)队列,其中仅有 76 个样本(图 D)。研究估计,将样本量翻倍可以使 ACC 的性能从目前的 0.88(类似于 LGGGBM 的性能)提高到 0.92(类似于 BRCA 的性能)。
研究总结:
本研究构建了针对 26 种癌症类型的分类器模型,探索分子亚型分类的最佳特征选择和数据整合策略。研究发现,mRNA 特征在大多数癌症分类模型中占据主导地位,尤其在 BRCA、LGGGBM 和 COADREAD 等类型中,其特征与已知的癌症驱动通路高度相关。通过机器学习模型的特征选择和通路富集分析,作者揭示了多个亚型的核心特征集,并确认这些特征与癌症的已知生物学机制具有显著联系。同时,研究表明,分类器性能与训练样本数量之间存在饱和点,150 个样本足以接近最大性能,增加样本量并不能显著提升预测精度。在分类性能与样本量关系的预测中,Burr Type XII 分布被证明是最佳拟合函数,可用于推断未来的分类表现。此外,研究还识别了影响分类器性能的关键元特征组,并分析了其对模型性能的显著影响。总体而言,本研究为分子亚型分类提供了高效、准确的模型开发框架,并对泛癌亚型分类的生物学机制提供了新的见解,为个性化癌症诊断和治疗提供了重要参考。
如何将该模型应用于临床检测?
选择合适模型:依据临床样本的实际情况,参考研究提供的 737 个模型信息(包括所选特征、平均总体加权 F1 值等),从 Table S5 中挑选针对特定癌症和数据类型的最佳模型。若临床样本已有某种类型的基因组数据,可直接选择对应数据类型的最佳模型;若不确定,则选择总体最佳模型,并根据其要求准备数据 。决策图(Figure 8)可辅助选择合适模型
数据处理:对临床样本数据进行处理,使其在范围和分布上与 TCGA 队列匹配。如针对外部数据集,研究采用基因逐基因的数值转换方法(如分位数重缩放程序)将表达值转换为与 TCGA 样本一致的 RNA - seq-based 定量数据。处理过程需注意对不同数据类型(mRNA、miRNA、DNA 甲基化等)分别进行相应的标准化和预处理操作,去除噪声和缺失值等 (
模型运行:利用研究提供的 Docker 容器(可从 GitHub 获取,https://github.com/NCICCGPO/gdan-tmp-models),运行所选模型对临床样本进行亚型预测。每个模型输出的预测分数可反映分类的置信度,通过与交叉验证测试中提供 95% 准确性的最低预测分数比较,判断预测结果的可靠性
结果解读与应用:根据模型预测的亚型结果,结合临床实际情况,为患者的预后评估和治疗方案制定提供参考。但需注意,由于模型存在局限性,如受原始亚型定义有效性影响,遇到新的未记录亚型时,可能需标记为 “未知” 。临床应用时还可结合其他临床指标和检测方法,综合判断患者病情