杂志:npj Breast Cancer
影响因子: 6.5
研究概述:
作为所有激素受体和HER2检测均为阴性的乳腺癌肿瘤,三阴性乳腺癌 (TNBC)具有高度异质性,可以划分为多种亚型,每种亚型都有不同的治疗方案。其中,PARP抑制剂(DNA损伤剂)已被批准用于TNBC中具有BRCA1/2有害变异的个体(gBRCAm)。在乳腺癌中,同源重组缺陷(HRD)是PARP抑制剂疗法的重要生物标志物。在患有HRD的肿瘤中,这些DNA损伤因子会导致突变的积累,导致合成致死最终致使细胞死亡,因此通过利用同源重组缺陷(HRD)作为潜在的生物标志物进行TNBC亚分类成为一种可能性思路。
作者对所收集的样本进行了基因组和转录组学测序,随后使用HRD相关的基因组突变特征对TNBC样本进行聚类来定义HRD状态,比较高低HRD组间的差异基因表达。作者发现了一组与HRD相关基因,并利用机器学习法构建预测模型,该模型可以精准分类出患者的HRD状态。在使用其他数据集和临床样本进行验证后,作者提出该HRD分类模型可作为非gBRCA却伴随着高HRD并且能从铂类化疗或PARP抑制剂治疗受益病人的区分手段。
研究结果:
TNBC样本中HRD基因组特征的聚类和基因表达分析
作者将收集的样本进行全外显子组测序,利用HRD相关基因组特征,包括 COSMIC 单碱基替换突变特征3 (SBS3)、短插入和缺失 (indels)、杂合性丧失 (LOH)、端粒等位基因失衡(TAI)、大规模跃迁(LST)以及拷贝数放大、缺失、增益和损失共10个特征进行无监督聚类分析。这些基因组特征的聚类将患者样本划分为两个不同的组(图1A)。随后,对两组进行差异基因表达分析,筛选到217个与HRD相关的基因(图1B),同时对以上基因进行富集分析,发现高HRD组的样本中细胞周期和DNA修复通路上调。
利用机器学习法使用获得的差异表达基因集构建HRD状态分类模型和验证
作者利用支持向量机和随机森林算法,使用的MyBrCa 队列中的数据为训练集,对以上217个差异基因进行训练,构建了HRD肿瘤样本分类器——HRD200集合分类器。该分类器在训练集和测试集中的平均AUROC为0.93(图2A)。图2B 是使用HRD200分类器对MyBrCa队列样本的分组与患者BRCA状态的比较情况。作者还比较了HRD200与其他文献中报道的预测模型的优越性,发现HRD200的预测效果优于使用 Peng和 i-SPY 2 的基因集所构建的类似分类器。
HRD200分类器在其他队列和平台上的验证效果
为了进一步评估HRD200分类器的稳健性,作者还在其他队列如TCGA乳腺癌队列、METABRIC乳腺癌队列、Nik-Zainal(NZ-560)乳腺癌队列中进行验证,预测结果显示,对于归类为 HRD 高与 HRD 低的样本的比较发现,HRD 高样本在所有 HRD 相关变量(包括 LOH、TAI、LST、短插入缺失、CNA 和突变特征 SBS3)上的得分显着更高(图3A), 该分类器预测TCGA TNBC中HRD状态的AUROC值为0.84(图3B)。不仅如此,作者的分类器在来自 Nik-Zainal (2016) WGS 队列的 73 个 TNBC 样本和来自 METABRIC 队列的 306 个 TNBC 样本中也成功分离出具有HRD相关特征的样本(补充图)。
最后作者利用了来自NanoString nCounter 平台的数据, 评估在采用不同基因表达测量方法下HRD200的性能,同样,尽管使用输入原始数据较小的基因子集和不同平台的表达数据的情况下,HRD200的预测性能仍然稳健(图4)。
研究总结:
作者利用突变载量和其他基因组特征,先将TNBC样本分为两个簇,随后进行差异基因比较,分析得出与HRD相关的基因集,利用该基因集的表达结果作为输入数据,作者开发了一种集成机器学习模型分类器(HRD200),该分类器可以准确区分高HRD和低HRD的样本,这个模型无论是在其他数据集中还是其他平台如NanoString,该模型分类结果的一致性率非常高,HRD与铂类化疗或者PARP抑制剂疗法密切相关,因此该模型的建立可用于受益于铂类化疗或者PARP抑制剂治疗的高HRD患者。另外关键的一点是,于其他的突变检测分类器相比,该模型的输入数据为基因表达特征,大大降低了由基因组测序所产生的成本。