文献阅读26——A large-scale systematic survey reveals recurring molecular features of public antibody r...

1. Author

Nicholas C. Wu

Nicholas C. Wu专注于三个研究问题:1. 病毒进化的制约因素是什么?2. 能否预测抗体的特异性吗?3.能否提高疫苗设计的质量和速度吗?

Nicholas C. Wu主要在流感病毒和SARS-CoV-2的背景下,使用分子病毒学、蛋白质生物化学、下一代测序、高通量分析、x射线晶体学、冷冻电镜和机器学习来解决上述问题。


2. Background

抗体是人类免疫系统的重要组成部分,在脊椎动物的免疫防御中发挥着重要作用。小分子药物已被证明不能满足多种靶点,因此抗体药物目前在制药行业中占有相当大的份额。根据最新数据,监管机构已经批准了162种抗体疗法,其中包括115种典型抗体、14种抗体偶联药物、12种Fc-Fusion蛋白、8种抗体片段、7种双特异性抗体、3种放射标记抗体。目前市场上的抗体药物大多是通过体内免疫或体外抗体库筛选发现的,成本高、耗时长。随着下一代测序技术(NGS)和B细胞单细胞筛选技术的发展,人们可以以更低的成本对人抗体重复序列进行更深入的研究,并产生了数十亿个抗体序列。整个过程可以简单地分为三个阶段:临床前研究、临床试验和上市后监测研究。许多经典的计算方法,如分子力学、分子建模、分子动力学和传统的机器学习(ML)方法,已被用于抗体药物研发。同时还有其他的计算机模型的辅助,如:结构建模、拟合预测、表位预测、可展性预测。然而,这些传统的方法要么不准确,要么数据量过大。深度学习(Deep learning, DL)作为机器学习的一个子集,可以从大数据中学习,在各种领域中表现得更好。在这篇综述中,我们总结了可用于编码抗体的方法,用于训练深度学习模型的神经网络架构,以及它们在临床前抗体药物发现和开发中的应用。利用抗体数据建立深度学习模型,首先需要将抗体序列或抗体结构数字化。根据是否使用语言模型,编码方案主要分为两类——传统编码方案和非传统编码方案。

编码抗体的主要方案

3. Methods

1. 抗体信息搜集

2. 分析胚系基因的占比

3. 分析CDR H3的聚类

4. 鉴定体细胞突变位点

5. 表达纯化SARS-CoV-2 RBD

6. 表达纯化抗体Fab段

7. 生物膜干涉实验

8. 进化树分析与拉式图

9. 计算机深度学习


4. Results

实验团队挑选了8048个抗体,这些抗体靶向于RBD、NTD、S2。通过胚系基因分析发现,RBD的抗体通常由IGHV3-53/IGKV1-9和IGHV3-53/IGKV3-20编码,而NTD由IGHV1-24编码。这些之前的文献多多少少有所报道,本次研究新颖的发现S2的抗体主要由IGHV3-30或IGHV3-30-3构成。同时轻链也有一定的偏好性,例如S2抗体由IGKV3-20和IGKV3-11编码最多,RBD抗体以IGKV1-33和IGKV1-39编码最多。抗体的多样性是由于VDJ重排导致的,所以实验团队分析了CDR3的序列特点,将其分为如下图所示的16个类别。

根据CDR3对抗体进行分类

发现:①针对RBD的3/5家族都包含一对高度保守的半胱氨酸,表明CDR H3中存在一个二硫键。家族3由IGHV1-58/IGKV3-20编码,家族5的抗体由IGHV3-30/IGKV1-33编码,拥有良好的结合能力,但是中和能力不高。IGHV3-13/IGKV1-39编码的RBD抗体也拥有类似的现象。这种微弱的中和效应可能是因为他们不与ACE2相竞争。②针对S2的抗体主要由IGHV3-30编码,轻链的贡献很少。家族10具有非常短的CDR H3(6个氨基酸),由IGHV4-59/IGKV3-20编码——是S2抗体中常见的V基因。家族15由IGHV1-69/IGKV3-11编码,是S2抗体中最常用的V基因。③针对NTD的抗体CDRH3非常的短,可能是因为CDR3在NTD结合方面贡献不大,也有可能是因为数据量不足的原因。

除此以外,实验团队还有一些其他发现:①家族7的重链的比例多种多样,但是轻链主要都是IGLV6-57 编码,例如S2A4,这个抗体由IGHV3-7/IGLV6-57编码。其中主要负责结合的是IGLV6-57。IGLV6-57与RBD形成了一个广泛的氢键网络,而CDRH3顶端的WLRG motif通过氢键与RBD相互作用。这一模体和轻链是该家族靶向RBD的关键因素。 ②靶向S2的抗体一般由IGHV3-30和IGHD1-26编码。IGHD1-26编码的抗体的CDRH3都只拥有14个氨基酸。众所周知CDRH3同样由IGHJ编码一部分,但是IGHJ的决定性作用似乎没有IGHD那么强。其中[S/G]G [S/N]Y motif起到了关键性的作用。

IGHD1-26在S2靶向抗体中富集

体细胞高频突变可以提高抗体对新冠抗原的亲和能力,实验团队将至少在两个抗体上出现的SHM作为重复体细胞突变(recurring SHM)。通过分析鉴定到了之前报道过的著名SMH,如:F27V, T28I, 和 Y58F。许多反复出现的SHMs并不是激活诱导脱氨酶(AID)的热点。其中只有T28I和S35N参与脱氨,只有S35N位于AID的热点区。 值得注意的是,在IGHV1-58/IGKV3-20公开克隆型中,S29R并没有被报道过,而IGHV1-58/IGKV3-20这类抗体具有很好的广谱性和中和活性。此外,系统发育分析显示, G92D来自于S29R的抗体群。

重复SHM驱动IGHV1-58/IGKV3-20家族抗体亲和成熟

基于上述序列分析,实验团队试图利用这些数据进行深度机器学习,区别人体内新冠抗体和其他病毒抗体(如流感)。实验团队挑选了1356个流感抗体,3000新冠抗体,将其分为训练集、验证集和测试集。利用训练集对深度学习模型进行训练。验证集用于评估模型在训练中的性能。测试集用于评估最终模型的性能。发现这样的深度学习模型可以很好的区分新冠抗体与流感抗体,但是很难区分新冠抗体的具体靶向亚基。


5. Discussion

作者:Yiquan Wang

通讯作者:Nicholas C. Wu

单位:Department of Biochemistry, University of Illinois atUrbana-Champaign, Urbana, IL 61801, USA

年份:2022

期刊:Cell immunity

科学问题针对SARS-CoV-2的新冠抗体胚系基因特征?

结论:本课题研究了靶向S蛋白(NTD/RBD/S2)的抗体胚系基因使用情况。RBD和S2的公共抗体会在CDRH3处有一些特征序列,但是NTD的CDRH3序列一般没有什么特征。此外相比于RBD与NTD抗体,S2的IGHD序列也有所特征。值得一提的是并不是公共抗体都一定要拥有特殊的胚系基因,特别是当IGHV/IGLV对抗体结合的贡献不大的时候。这种现象在之前的流感研究中就有出现:在流感的抗体中,主要参与保护作用的是IGHV1-69。在此研究中,一方面,针对S2的IGHV3-30/IGHD1-26抗体代表了一种公共抗体反应;另一方面,CDR H3中含有WLRG基序的IGLV6-57编码的RBD抗体代表了一种公众反应,它在很大程度上不依赖IGHV基因。公共抗体对不同抗原的反应可能具有非常不同的序列特征。例如,IGHV6-1和IGHD3-9是公共抗体对流感病毒反应的标志,IGHV3-23通常用于登革热和寨卡病毒。该研究通过训练深度学习模型,仅基于一级序列信息区分SARS-CoV-2 S抗体和流感HA抗体。

Graphical abstract
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容