Nat Mach Intell|基于深度学习的T细胞受体-抗原结合特异性预测
原创 huacishu 图灵基因 今天
收录于话题#前沿生物大数据分析
撰文:huacishu
IF=15.501
推荐度:⭐⭐⭐⭐⭐
亮点:
1、作者采用了转移学习这一较新的深度学习分支来训练一个名为pMTnet的模型,该模型可以预测I类pMCs的TCR结合特异性,同时使用大量独立的数据系统地验证了pMTnet,并展示了与以前工作相比所取得的进步。
2、pMTnet解决了长期存在的TCR-pMHC配对预测问题,揭示了全基因组范围内的生物学见解,并可作为构建预测免疫治疗反应的生物标记物的基础。
近日德克萨斯大学西南医学中心Wang Tao博士团队在国际知名期刊Nat Mach Intell在线发表题为“Deep learning-based prediction of the T cell receptor–antigen binding specificity”的研究论文。新生抗原在T细胞识别肿瘤细胞中起关键作用;然而,只有一小部分新生抗原能真正引起T细胞反应,关于哪些新生抗原被哪些T细胞受体(TCR)识别的线索也很少。作者建立了一个基于转移学习的模型,名为pMHC–TCR结合预测网络(pMTnet),用以预测I类主要组织相容性复合物所呈现的新抗原和T细胞抗原的TCR结合特异性。pMTnet通过一系列分析得到了全面验证,并且与以前的工作相比有了很大的进步。通过将pMTnet应用于人类肿瘤基因组学数据,研究发现新抗原通常比自身抗原更具免疫原性,但人类内源性逆转录病毒E(一种在肾癌中被重新激活的特殊类型的自身抗原)比新抗原更具免疫原性。进一步研究发现在黑色素瘤和肺癌患者中,具有更多克隆扩增的T细胞且对新抗原表现出更好的亲和力的患者对免疫治疗具有更有利的预后和治疗反应,但在肾癌患者中没有。预测TCR-新抗原/抗原配对是现代免疫学中最艰巨的挑战之一;本研究仅使用TCR序列(CDR3β)、抗原序列和I类主要组织相容性复合物等位基因就实现了准确预测,并且该研究揭示了利用pMTnet作为发现工具对人类肿瘤中TCR和主要组织相容性复合物之间相互作用的独特见解。
为了在数值上嵌入TCR,作者关注了TCRβ链的CDR3区域,这是抗原识别中特异性的关键决定因素。首先使用Atchley因子对氨基酸符号进行编码,该因子使用五个数字来综合表示每个氨基酸的物理化学性质。然后,构建了一个堆叠式自动编码器(图1a),以从243747个独特的人类TCRβ CDR3序列中学习TCR的数值嵌入。自动编码器能够通过无监督的分解-重建过程捕获复杂输入的关键特征,并以短数字向量的形式嵌入捕获的输入特征。通过比较输入TCR和重构TCR,作者验证了该自动编码器。分析结果表明,可以通过CDR3嵌入的方式重建CDR3(图1b),这证明了该自动编码器可以进行成功训练。原始TCR CDR3 Atchley矩阵和重建矩阵之间的Pearson相关性通常大于0.95。为了嵌入pMHCs,首先使用深层LSTM神经网络(图1c)重新实现netMHCpan模型,以便netMHCpan模型的内部层可用于与模型的其他部分集成。该模型的输入是MHC序列(仅I类)和抗原蛋白序列。独立测试数据集中预测的结合概率和真实结合强度的Pearson相关性达到0.781(图1d)。最后,利用训练过的TCR和PMC的数字矢量编码来学习它们之间的配对关系。基于这两个子模型的输出构建了一个完全连接的深度学习网络,最终形成一个带有单个神经元的用于预测的配对(图1e)。我们通过随机错配32607对的TCR和PMC,进行了150个时期的培训(图1f)。接着将pMHC-TCR绑定预测网络的最终模型命名为pMTnet。在差异训练之后,还以比较的方式生成预测输出。pMTnet输出一个介于0和1之间的连续变量,反映TCR和pMHC之间预测结合强度的百分位等级。
对从独立研究中收集的大量已知TCR–pMHC结合对进行了一系列验证分析。首先收集了619对经实验验证的TCR–pMHC结合对。与主要从高通量实验等数据库批量导出构建的训练队列相比,构成测试队列的绑定对大多受到原始报告的严格询问。研究使用了两个指标,接收机工作特性曲线下面积(AUC)和精确召回率(PR)。在该队列中,ROC的AUC达到0.827,PR的AUC达到0.566(图2a)。为了测试pMTnet是否真正了解了决定绑定的特征,或者只是记住了配对情况,又研究了与训练TCR具有不同相似度的TCR的预测性能(图2b)。我们检查了四个单细胞数据集,这些数据集分析了44个pMHCs对来自四个健康供体的CD8+T细胞的抗原特异性。结果发现T细胞克隆型的克隆大小和预测等级与达到的统计显著性呈负相关(图2c)。换句话说,具有TCR且预测pMHC结合强度更强的T细胞也比没有强结合的T细胞扩张得更多。这一点在优势比试验中用高亲和力结合抗原富集扩增的T细胞克隆型中得到了更清楚的证明。相反,观察到一些克隆大小较小的TCR与pMHC的预测结合等级较小,这可能是由于TCR与pMHC之间结合的随机性造成的,也可能是由于不断引入的新克隆尚未发生扩展。我们进一步分析了pMTnet是否能够区分肽序列对TCR结合特异性的影响。22种模拟肽中有11种通过IFN-γELISPOT验证激活了T细胞;pMTnet对每种肽类似物进行了预测,并且预测更强的结合类似物确实比它们的类似物具有更强的结合强度(图2d)。
作者在前瞻性实验数据中进一步验证了pMTnet。对过去流感、EB病毒(EBV)和人类巨细胞病毒(HCMV)感染血清阳性的供体进行了大量TCR测序和HLA等位基因分型。实验是在血液中进行的,体外扩增的T细胞来自供体的肺肿瘤。作者分析了大量TCR测序数据,并预测了TCR与四种病毒性PMC之间的结合,包括M型流感(GILGVFTL)、A型流感(FMYSDFHFI)、EBV BMLF1(GLCTLVAML)和HCMV pp65(NLVPMVATV)。我们发现,在血细胞和体外扩增的T细胞中,预测与这些肽中的任何一种具有更强结合的TCR显示出比其他TCR更高的克隆比例(图3a)。作者计算了具有更强预测结合的高度扩增TCR富集的优势比,其中优势比越高,阳性富集率越高。在血液和扩增的T细胞中观察到更强的富集,同时对预测的结合等级进行排列,并观察到更小的优势比(图3b)。然后用每种病毒肽处理扩增的T细胞,并用成对的TCR-seq进行单细胞RNA测序(scRNA-seq);还进行了载体治疗。鉴定了在每个治疗组和载体治疗组中捕获的TCR,并使用pMTnet预测TCR与每个肽的结合。从每个实验中选择TCR(pMTnet预测等级<2%),并首先检查这些结合TCR克隆型的T细胞的基因表达。通过将T细胞与预测的顶部结合TCR和其他T细胞进行比较,观察到差异表达基因在T细胞增殖、迁移、存活和细胞毒性的关键途径中富集(图3c)。我们还计算了这些TCR克隆型的克隆大小,发现大多数TCR克隆型在治疗组中表现出比载体组更大的克隆分数(图3d)。
接着进行了电子突变分析来寻找CDR3残基的结构证据,CDR3残基的突变导致TCR和PMCs之间预测结合的显著变化。对于每个CDR3残基,将其数字嵌入变异为一个全零向量。这与生物物理学研究中的丙氨酸扫描技术相似但不同。首先对619个试验队列的所有TCR进行残基突变,并记录野生型TCR和突变TCR之间预测结合等级的差异。将每个TCR CDR3分成六个相等的长度片段(图4a),和预期的一样,在CDR3S的中间段中的残留物,其凸出并与PMHCs更紧密地接触。此外,从免疫表位数据库队列中提取了13对TCR–pMHC对,蛋白质数据库(PDB)中提供了三维晶体结构,其预测结合亲和力等级低于2%。根据结构,作者依据CDR3残基是否与4Å内的pMHCs残基形成任何直接接触对其进行分组。结果发现,与非接触残留物相比,接触残留物更有可能导致预测的pMHC结合强度发生更大的变化(图4b)。并且还进行了硅丙氨酸扫描,发现了类似的趋势(图4c)。作者发现R98和S99在零设定扫描(图4D)和丙氨酸扫描(图4D)的预测上有最大的差异,这是位于CDR3的中间的残留物,并且与PMHC的接触最多。另外两种氨基酸具有相对较高的秩变化,这可以解释为它们在CDR3环的形成和稳定中起着至关重要的作用。作者观察到S95与Q103形成的小环以及E102和Y104的侧链形成链内接触。
对于每个患者样本,作者计算了新抗原或自身抗原的百分比,预测每类抗原至少结合一个TCR。图5a显示了一例ccRCC患者的总抗原数和免疫原性抗原数。然后,对于所有癌症类型的所有患者,计算每个患者的新抗原、自身抗原和HERV-E(仅肾癌)的免疫原性抗原比例。观察到新抗原通常比自身抗原更具免疫原性(图5b),因为与自身抗原不同,新抗原是T细胞在发育过程中未遇到的突变肽;然而,作者观察到,在RCC中,HERV-E抗原比新抗原和其他自身抗原更可能具有免疫原性,这证实了过去关于HERV-E在诱导肾癌免疫反应中重要性的报告。接下来,研究了TCR-pMHC相互作用对T细胞克隆扩增的影响。对于每个患者,比较了预测与任何新抗原和自身抗原结合的TCR的克隆分数,以及其他非结合性T细胞的克隆分数。使用一例患者(图5c),我们显示了该患者中能够或不能结合任何抗原的TCR的平均克隆分数。该患者的结合性T细胞的平均克隆率高于非结合性T细胞。对于四种癌症类型中的每一种,计算具有较高平均克隆分数的结合性T细胞的患者人数除以具有较高平均克隆分数的非结合性T细胞的患者人数。结果观察到,越来越多的患者表现出其抗原靶向性T细胞比其他T细胞的克隆性扩增(图5d),定义抗原-TCR配对的秩百分位界限越来越小(亲和力更强)。与图2c和图3一致,该结果还表明,在人类肿瘤中,更多的免疫原性肿瘤抗原诱导更强的T细胞克隆扩增。
作者研究了LUAD、LUSC、SKCM和RCC队列中NIES与预后之间的关系。首先关注总T细胞浸润水平高的患者。作者推测,当有足够的T细胞浸润时,新抗原-T细胞轴会变得更加活跃。有趣的是,在肺癌和黑色素瘤患者中,NIESs越高,生存率越高(图6a)。相比之下,NIES在肾癌中没有预后(图6d)。对于所有四个队列,低T细胞浸润患者的总体生存率与NIES水平无关,进一步支持了作者的假设。接下来,将肺癌和黑色素瘤患者与高T细胞浸润合并,该综合队列的生存分析显示,NIESs较高的患者总体预后较好(图6e)。进行多变量分析,调整组合队列中的疾病类型、分期、性别、年龄和TCR序列多样性,以及存活率和NIES之间的关联(图6f)。作为基准,根据新抗原载量中位数、T细胞浸润或TCR多样性对患者进行了分配,并进行了相同的分析。结果观察到NIES的预后更强而不是其他候选生物标记物(图6g)。
该研究工作证明了利用pMTnet加强癌症患者护理的潜力,例如为免疫治疗反应生成预后工具和预测工具。Yost及其同事发现,在抗PD-1治疗后,癌症患者的T细胞发生了显著的克隆性替换。在时间和成本方面,pMTnet可以使患者在免疫治疗后密切监测TCR,并实时做出信息量最大的治疗决定变得更加可行。pMTnet还可用于设计TCR-T或新抗原疫苗疗法,其中pMTnet可生成用于工程的候选TCR。作者发现NIES是检查点抑制剂治疗的预后和预测因子(但不是肾癌),可能是由于HERV的再激活及其低突变负荷造成的。总体而言,该研究证明了TCR和PMHCs之间的配对,仅给予TCR、抗原和MHC序列,是可以机器学习的,这为将来产生更高精度TCR抗原预测模型的研究奠定了基础。作者期望pMTnet推动肿瘤免疫组学研究,并在个性化医疗的现代时代加强免疫治疗的设计和实施。
教授介绍
Wang Tao博士是德克萨斯大学西南医学中心人口与数据科学系定量生物医学研究中心助理教授,他的研究围绕着使用最先进的生物信息学和生物统计学方法来研究肿瘤免疫学对肿瘤发生、转移、预后的影响,以及各种癌症的治疗反应。Wang Tao博士隶属于Harold C. Simmons癌症中心。Wang Tao博士于2011年毕业于中国北京大学,接着在UTSW大学学习。获得博士学位后,他成为UTSW的助理教授。以通讯作者在相关杂志上发表论文多篇。
参考文献
Lu, T., Zhang, Z., Zhu, J. et al. Deep learning-based prediction of the Tcell receptor–antigen binding specificity. Nat Mach Intell (2021).https://doi.org/10.1038/s42256-021-00383-2