计算分析肿瘤双抗靶点组合


杂志:2024年5月《Journal of Cancer Research and Clinical Oncology》
题目:通过成对学习和GPT增强指导双特异性抗体靶点组合的选择
单位: 北京神州细胞生物技术集团

1 摘要

1、如何选择合适的双靶点以开发安全有效的双特异性抗体是制药公司面临的一大挑战。利用机器学习模型,文章细化了目前已获批或处于临床开发阶段的双特异性抗体(BsAb)的生物学特性,并分析了数百种膜蛋白作为双特异性靶点,以预测不同靶点组合药物开发成功的可能性

2、本研究采用结合成对学习的 XGBoost 模型来预测双特异性抗体的成药性。通过分析大量的双特异性抗体数据,并从靶标活性、安全性、细胞类型特异性、通路机制和基因嵌入表达等角度设计特征,探讨每个双特异性靶标对的疗效,从而辅助药物开发者的决策

3、双特异性抗体的开发重点倾向于利用已获批或正在临床试验中的成熟单克隆抗体靶点。然而,如何预测双特异性抗体靶点组合的成功率,从而降低试验成本,可能是制药行业目前面临的挑战。此外,如何在双特异性药物中组合不同的靶点以实现最佳疗效和安全性,将是研究人员需要考虑的关键问题。这项工作需要深入了解肿瘤微环境中靶点的空间和时间表达特征,而单细胞RNA测序(scRNA-seq)技术则为深入了解肿瘤微环境中单个细胞水平的基因表达谱提供了前所未有的视角

4、文章提出了一个BSPAI(BiSpec Pairwise AI)框架,用于准确预测双特异性抗体(BsAb)研发中的最佳靶点对。具体而言,文章的模型以单细胞转录组学中不同细胞类型的基因表达数据以及目前已获批和正在临床试验中的BsAb列表作为输入。该模型运用丰富的生物学特征,例如靶点对的双阳性比例、安全性、机制、基因嵌入等,并以每个靶点对作为输出,预测该靶点对成功获批为双特异性药物的可能性

2 方法

1、BSPAI 包含两个阶段:第一阶段,特征提取和模型训练,使用双特异性靶点数据集预测靶点协同效应,并识别影响这些预测的关键特征。第二阶段,通过 LLM 集成增强解释能力,该模型将初步发现综合成 LLM 的提示,并生成解释性报告。这种方法将预测分析与情境智能相结合,提供对双特异性靶点组合潜力的全面理解

2、数据集收集和预处理: 训练机器学习模型,文章收集了四种不同类型肿瘤的单细胞 RNA 测序数据集,以确保数据的丰富性。使用 Scanpy 完成了预处理,包括:标准化来自不同来源的数据格式、严格的质量控制以去除低质量细胞和污染物,以及标准化。文章鉴定了高度变异的基因,以了解细胞异质性。通过主成分分析(PCA)进行降维,然后进行细胞聚类和可视化,以识别和显示细胞亚群。最后,分析了这些亚群中的基因表达模式,以阐明它们在肿瘤微环境中的作用,为双特异性抗体(BsAbs)药物的设计提供参考

3、训练数据集和成对标签生成:为已获批的药物分配了比正在临床进展中的药物更高的模型分数,同样,处于临床后期的药物的评分也高于处于初步或临床前阶段的药物。收集了791个针对肿瘤适应症的双特异性药物的临床进展数据。这些双特异性药物涵盖 5 个不同的临床阶段,见 Table2

3、特征工程:所有这些生物学特征的构建旨在通过不同的生物学和数据驱动方法全面评估BsAb的潜在抗肿瘤作用和安全性。特征的构建依赖于丰富的生物学数据,包括基因表达数据、通路数据等。这些特征组包括:

(1)基于安全的特征组分
为了评估使用联合靶点的安全性影响,文章计算了癌组织与邻近正常组织之间平均基因表达差异的 harmonic 平均值,scoresafe 值越高,表示安全性越好,计算公式如下,其中 x 和 y 代表两个目标基因:

(2)基于目标基因功能机制的特征组分
本特征组通过分析靶标在共享生物通路(包括京都基因与基因组百科全书 (KEGG) 通路和基因本体 (GO) 注释中收录的通路)中的共现情况,探索靶标的协同潜力。通过汇总来自综合数据库的通路关联数据,文章根据这些通路中基因对共现的频率计算特征得分,从而深入了解它们的协同作用机制

(3)基于基因 embedding 表示的特征组分
基因嵌入借鉴了 Gene2Vec 的方法,类似于自然处理中的 Word2Vec 模型,旨在通过将每个基因表示为高维向量来理解基因关联,从而揭示基因之间复杂的调控关系。通过这种方法,表现出相似表达模式或功能特征的基因在向量空间中被定位在邻近的位置。基因向量之间的欧氏距离可作为相似性的度量,为基于基因嵌入表示组合特定目标的可行性提供预测指标。其中x和y是表示两个目标的向量,n 是向量的维数
Gene2Vec 文件如下:https://raw.githubusercontent.com/jingcheng-du/Gene2vec/refs/heads/master/pre_trained_emb/gene2vec_dim_200_iter_9.txt

(4) 基于目标基因活性的特征组分
此类特征旨在评估特定细胞群中 阳性基因表达水平,从而深入了解肿瘤微环境中不同细胞类型的基因或靶标功能。此类特征主要包括:

细胞中双特异性靶点的双阳性比例:该指标评估同一细胞内两个靶点均呈现阳性表达的发生率,作为靶点协同活性的指标

细胞中每个目标基因的总阳性比例总和:通过计算细胞中每个目标阳性表达的比例总和,此功能可以衡量整体目标活性

细胞中每个目标的总阳性比例的最小值:此功能捕获两个目标的总阳性比例中较小的一个,反映目标对的组合活动水平

文章深入研究了单细胞转录组数据,提取了特定不同细胞群的目标基因的表达值。分析特别关注对肿瘤微环境至关重要的细胞群,例如耗竭型 CD8+ T细胞、Treg 细胞、巨噬细胞和上皮细胞。 对于每个候选基因,文章计算了表达最显著的细胞群的平均表达水平,并确定了表达水平最高的两个细胞群进行进一步分析。确定了这些关键细胞群中每个基因的总阳性比例,将其定义为基因表达水平超过预定阈值的细胞比例。此外还评估了每对基因的双阳性比例,量化了两个基因均超过表达阈值的细胞比例。这种基于阈值的方法有助于严格量化基因活性,从而精确评估潜在的双特异性靶标组合

在一个特定的细胞聚类簇中,计算基因表达水平(exprgene,i) 超过特定阈值(T)的比例,作为一个基因的总阳性比例(Pgene)。其中 N 表示簇内细胞数,I 是一个指示函数,当第 i 个细胞中该基因的的表达量大于 T 时, I 等于 1,否则等于 0

双阳性比例是通过识别两个目标基因均表达高于阈值的细胞来计算的,其定义为:


(5) 基于目标基因表达相关性的特征组分
采用皮尔逊相关系数来量化单细胞内两个靶标表达水平之间的线性关系。这些见解对于理解靶标的协同作用或独立作用至关重要,可为治疗干预的战略设计提供参考:

3 实验设置

文章对比了 7 种不同模型的性能:逻辑回归、决策树、随机森林、梯度提升分类器(GBDT)、深度神经网络(DNN) 、 XGBoost 和 pairwise learning 形式的 XGBoost。为了确保模型的稳健性和泛化能力,文章采用了 5 重交叉验证策略,从而增强了在不同数据集划分中结果的可靠性。AUC 作为评估模型性能的主要指标,提供了全面的模型准确率指标

4 GPT与检索论证生成的集成

通过检索论证方法将机器学习模型的输出结果与 LLM 模型(GPT-4)相结合,充分利用 LLM 模型丰富的预训练知识和机器学习模型的准确性,从而得到可解释性更强的双特异性药物靶标设计分析结果。当查询两个目标是基因是否能组双抗时,GPT-4 整合了机器学习的重要特征、机器学习模型的预测结果(下图所示)、LLM 自身的预训练知识以及从搜索引擎检索到的目标最新研究进展,输出最终报告。与单纯机器学习模型的概率结果相比,这种结合概率、重要特征和丰富论证的方法可以更好地帮助药物设计者做出明智的决策。整个框架(包括特征计算、模型预测、重要特征识别和快速工程)被称为 BSPAI,结果部分展示了 BSPAI 在联合检索 CD274 和 CTLA4 后的输出结果

5 结果

5.1 特征消融研究

1、为了探究各个特征组对双特异性抗体靶点组合预测精度的贡献,将每个特征组依次纳入模型,然后进行再训练和评估,以监测由此产生的性能指标变化。这些实验的结果阐明了多种生物学特征对增强模型预测精度的关键影响,如 Table3 所示

2、最初,单独使用双阳性比例特征的AUC为 54.76%,凸显了其预测价值。结果也揭示了其在预测两个靶点不在同一细胞上表达的情况时的局限性。随后,安全性相关特征的加入带来了显著的提升,AUC提升至67.06%,提升幅度达12.3%。这一提升凸显了安全性考虑在药物研发过程中以及治疗结果预测中的重要性。进一步的改进包括添加机制分析特征,AUC提升了4.68%,达到71.74%。这一提升凸显了靶点间共享生物学通路的重要性。基因嵌入特征的加入使AUC小幅提升了1.98%,达到73.72%,这表明通过嵌入技术捕捉复杂基因关系的实用性

3、预测准确率的显著提升得益于单细胞靶标表达的加入,AUC 提升至 86.19%,提升幅度高达 12.47%。这一飞跃表明单细胞靶标表达水平在决定双特异性药物组合成功与否方面至关重要。这体现了单细胞转录组测序技术的优势,为理解细胞行为、细胞间相互作用和复杂的生物学过程提供了前所未有的细节水平。尤其是在肿瘤微环境研究中,肿瘤组织并非由单一细胞类型组成,而是一个包含多种细胞类型(如肿瘤细胞、免疫细胞、内皮细胞等)的复杂生态系统。单细胞转录组学可以揭示这些不同细胞类型的基因表达特征,以及它们在肿瘤发展和治疗反应中的独特作用。最终,整合单细胞特征的分组细胞类型表达进一步完善了模型的准确率,AUC 达到 89.29%,提升了 3.1%。这项最终改进强调了分析特定单细胞类型内靶标表达的必要性,尤其是像PD-1和CTLA4这样的靶标,它们主要在T细胞内表现出显著的表达。这部分研究强调了单细胞分组细胞类型表达特征的重要性,这意味着基因靶标表达的分析需要在特定细胞群体内进行,而不是对所有细胞类型进行广义分析

4、借助 XGBoost 模型,文章采用了“特征频率”方法,该方法根据特征在决策树集合中作为分裂节点的重复出现次数来量化特征的重要性。 下表显示了每个特征的含义。Fig2 显示,通过基因嵌入技术推导出的目标相似性成为最重要的特征,凸显了其在模型预测中的重要作用。通过将基因转化为数值向量,基因嵌入封装了来自基因共表达网络的信息,为揭示基因功能、疾病关联和潜在治疗靶点提供强有力的支持。紧随其后的是安全性评分 (safety_score),它封装了与双特异性靶点相关的潜在风险因素。优秀的双特异性抗体靶点需要具有肿瘤表达特异性,以降低因靶向/脱靶效应导致不良事件 (AE) 的风险。安全性特征也符合临床实践规律,I 期临床试验的主要终点通常是安全性和初步疗效。在确保安全性的前提下,它将进一步推进到 II/III 期疗效验证研究

5、两个靶基因之间的 Pearson 相关性系数重要性排在第三位,反应两者表达水平的一致性。共表达特点提示BsAb协同作用的生物学本质来源于靶标对的共表达以及下游信号通路的重叠或共扩增。例如,已经成功获批的 AK104, 主要针对耗竭型 CD8+ T细胞上PD-1和CTLA4的共表达,通过阻断双重抑制信号通路,从而叠加刺激 T 细胞分泌 IFNγ 来杀伤肿瘤。此外,CTLA4 通路还可以显著刺激 CD4+ T 分泌 IL-2 , 促进分化,促进T细胞、NK细胞等免疫细胞在肿瘤微环境中的增殖、存活和肿瘤杀伤活性

6、此外,T 细胞内靶标的单一阳性比例被确定为关键决定因素,凸显了 T 细胞内靶标活性的重要性。单表达特性提醒开发者注意肿瘤微环境中靶标表达的高度异质性。再次以 AK104 为例,除了靶向共表达 CD8+ T细胞外,AK104 的一个臂还可以靶向单表达的 PD-1+CD8+ T 细胞或者单表达的 CTLA4+CD4+ T 细胞。这些细胞在肿瘤微环境中含量丰富,通过覆盖更多效应 T 细胞发挥最佳抗肿瘤活性。


5.2 性能和模型比较

1、基于药物设计专业知识,选择了“双阳性比例”这单一特征进行模型性能评估,其 AUC 为 54.76%,但该特征的适用性有限,主要适用于两个靶标在同一细胞类型中高表达的情况。这种限制在需要桥接两个细胞时,更明显

2、考虑不同临床分期之间的序数关系——尤其是在双特异性药物临床样本稀缺的情况下——可以显著提高模型性能。成对方法通过优先考虑靶标对之间的相对排序,在阳性样本有限的情况下成为一种有效的方法,为在类似研究环境中的应用提供了一条充满希望的途径

5.3 离散化各个指标以增强GPT的查询和集成

1、对连续数值特征采用了离散化策略,将其分割成区间,以便从自然语言处理的角度更易于理解。离散化的结果(将数值数据转换为自然语言片段)如 Table5 所示

2、通过这种方法,旨在提供对模型决策过程的细致理解,从而促进在双特异性药物设计领域开发更具解释力和可操作性的洞察


5.4 目标预测结果

1、Table6 列出了每种双抗排名前 3 的靶点列表,并根据预测的双特异性靶点对上市概率从高到低排序

2、补充 Table3 列出了排名前100的靶点对。由于CD3(CD3E)靶向T细胞,并且是一种通用的 T 细胞激活剂,因此仅显示所有 CD3 组合中排名前两的靶点对

3、CD274(PD-L1)+CTLA4 代表目前正在进行临床研究的重要靶点对。针对CD274 + CTLA4的BsAb一臂针对CD274,另一臂针对CTLA4。其作用机制包括:
(1)释放对效应细胞如同时表达(约28–43%)和单一(2–10%)PD-1 / CTLA4的CD8 + T细胞的免疫抑制,防止耐药性;
(2)通过CD274侧交联显着聚集CTLA4受体,协同缓解耗竭的CD8 + T抑制;
(3)两个臂都可以桥接效应细胞,将CD8 + T细胞拉近肿瘤,或桥接CD4 + T和DC细胞以增强免疫突触形成和抗原呈递;
(4)利用 IgG1 突变亚型,其抗体依赖性细胞介导的细胞毒作用(ADCC)、抗体依赖性细胞介导的吞噬作用(ADCP)和补体依赖性细胞毒作用(CDC)功能均降低,从而最大限度地降低了NK细胞或肿瘤相关巨噬细胞(TAM)介导的T细胞清除风险


5.5 GPT 生成的完整分析报告

将CD274和CTLA4这两个靶点输入到我们的模型BSPAI之后,输出一份完整的分析报告如下:


6 参考文献

[1] Zhang X , Wang H , Sun C .BiSpec Pairwise AI: guiding the selection of bispecific antibody target combinations with pairwise learning and GPT augmentation[J].Journal of Cancer Research and Clinical Oncology, 2024, 150(5):1-15.DOI:10.1007/s00432-024-05740-3.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容