许多治疗药物是可以用简单的化学结构来表示的化合物,这些结构在作用部位包含重要的亲和力决定因素。近年来,图卷积神经网络(GCN)模型在这类化合物的活性分类方面取得了很好的效果。对于定量预测活性的模型,人们利用了更复杂的信息,如化合物的三维结构及其各自靶蛋白的氨基酸序列。作为另一种方法,我们假设,如果有足够的实验数据可用,并且隐藏层中有足够的节点,一个简单的复合表示将以令人满意的精度定量预测活动。在这项研究中,我们报告说,仅从化合物的二维结构信息构建的GCN模型对来自ChEMBL数据库的127个不同靶点显示出高度的活性预测性。利用信息熵作为度量,我们还发现结构多样性对预测性能的影响较小。最后,我们报告使用构建的模型进行的虚拟筛选确定了一种新的5-羟色胺转运体抑制剂,其活性与体外上市药物相当,并在行为研究中显示出抗抑郁作用。
https://www.nature.com/articles/s41598-020-80113-7?from=from_parent_mindnote
药物的药理作用取决于它们与特定靶蛋白的结合亲和力。通常,即使是最有经验的研究人员,也不可能仅仅通过观察单个化合物的结构来预先预测它们对靶蛋白的作用强度。这种活性预测问题在化学信息学领域已经研究了很多年,现在由于在硅片筛选和最近的机器学习方面的快速进展,已经成为药物发现的一个核心组成部分。一种相关的机器学习技术是深度神经网络(DNN)。DNN中的卷积技术是计算机视觉革命性能力的核心,DNNs1正受到越来越多的关注。当这项技术应用于一种化合物时,结构信息被转换成一种数字形式,一种特征向量,可以通过机器处理来解释该化合物与其药理活性之间的关系。
图卷积神经网络(GCN)模型将神经指纹与完全连通层相结合,与基于扩展连通性循环指纹(ECFP)的模型(化合物表示的标准方法之一)相比,在溶解度预测和活性预测等任务中表现出更好的性能2,3。
Altate等人报告了一个GCN模型,该模型定义了一个新的层(类似于图像识别任务中使用的池层)和一个图形收集层;这些层在作为DeepChem应用程序的核心部分的开源许可下可供研究4,5。他们比较了GCN模型和支持向量机(SVM)模型的分类性能,支持向量机是机器学习中常用的一种方法,用于Tox21(毒性)、SIDER(不良事件)和MUV(药理活性)数据集。这项研究表明,GCN模型可以表现出相当于或优于支持向量机的性能,即使没有“彻底的超参数优化”的GCN模型。
在这个易于使用的开源算法的帮助下,许多成功的分类性能已经被报道。一个比Altae更少卷积层的GCN结构将化合物对人类乙醚-A-go-go相关基因(hERG;严重心律失常的危险因素)6的抑制活性以及过氟和多氟烷基物质的生物活性分类7,结果表明,GCN模型在分子网络3的数据集上优于其他九种机器学习技术。另一种GCN结构具有与Altae成功分类的化合物相同的三个卷积层,用于从PubChemBioAssay集合中提取的10个靶点8和作用于β-位点淀粉样前体蛋白裂解酶1(BACE1;阿尔茨海默病的主要药物靶点)9的化合物。Mayr等人广泛验证了九种分类模型的性能,包括GCN,用于从ChEMBL(版本20)收集的1310个分析,ChEMBL(版本20)是一个具有药物性质的生物活性分子数据库10。
分类中的目标变量是一个或多个二进制值。定义活性(或非活性)化合物所需的阈值应根据处理的目标有所不同,但是,尚未遵守固定规则10、11、12。除了阈值设置之外,还有另一个问题,即丢失有关绑定到目标的“程度”的关键信息。例如,在分类任务中,IC50值为1μM的化合物和IC50值为1nm的化合物被同等地视为“活性”,尽管在相同的实验条件下,后者明显比前者更有效。
在早期药物发现研究中,高通量筛选是一个重要的信息来源,定量结果比简单的定性数据更有价值,可用于选择待优化的化合物。类似地,当从大型虚拟化合物库中购买有限数量的化合物时,例如,定量的活性预测将使排序过程更容易。此外,为了确定阐明药理作用的工具化合物,定量预测比定性预测更有帮助。为此,一系列报告利用化学表征和目标信息构建了各种回归模型,如三维复合蛋白复合物信息13、氨基酸序列信息14、15、16、目标蛋白17、18的分析信息以及来自氨基酸的原子信息化合物结合部位附近的酸19,20。
相比之下,仅使用复合衍生数据的回归模型也有报道。其中一个使用了一个从长达102400位的超长ECFPs转换而来的特征向量来预测G蛋白偶联受体(GPCR)配体21的活性。另一种方法是使用两种指纹(神经指纹和传统指纹)串联生成的复合特征向量来预测蛋白质-配体复合物结构已被溶解的靶点的活性22。定量活动预测旨在预测各种各样的客观变量。由于隐藏层中有许多节点的体系结构即使在活动分类12、23中也表现得更好,因此在定量预测中需要更多的节点。
许多药物是很容易用简单的化学结构来描述的化合物,这些结构本身就包含了它们药理作用的关键决定因素。这类化合物能够根据其自由度的多少采取各种构象,但在许多情况下,其首选构象是化学结构本身固有的,尽管其药理作用模式通常只涉及特定构象。此外,药物也必须被吸收并到达作用部位。药物吸收和分布背后的物理化学性质也是其化学结构的基本特征。
在本文中,我们报告的性能回归模型只建立在特征是自动提取复合结构。具体地说,以化学结构为图,我们构造了GCN模型,并证明具有较大隐藏层的模型能够满意地定量地预测公开测量IC50、EC50、Ki、Kd和Km的半最大响应。通过建立从ChEMBL版本25(本报告中称为ChEMBL)中提取的127个目标蛋白的基准数据集的模型,并使用本研究中引入的信息论度量,我们证明数据集中化合物结构的多样性对预测性能的影响比预期的小。我们还报道,我们的模型通过虚拟筛选血清素转运体(SERT)鉴定了一种新化合物,其结合能力在体外试验和体内抗抑郁试验中与商业药物相当。
材料和方法
数据集
通过调整Bosc等人11的方案,从ChEMBL中提取数据。首先,选择置信度为6或更高、分析类型 = B和标准单位 = nM的数据。这些置信度得分由ChEMBL提供,并指示化合物靶蛋白分配的置信度水平。B表示通过体外实验进行的“结合”试验。对于每个靶点,在整个研究过程中使用p-活性值;这些值由 - log(v)定义,称为pIC50。在这种情况下,v是IC50、EC50、Ki、Kd和Km中的一个,其中值越高表示活动越大。选择标准关系为“>”、“≥”、“=”、“≤”和“<”之一。作为进一步的限制,如果“活动评论”既不是“非决定性的”也不是“未确定的”,如果“潜在重复” = 0和“数据有效性评论”不是“潜在作者错误”,则选择测量值。
化合物结构以SMILES格式从ChEMBL中提取。用速溶jchem19.8.0(IJC)24中和,根据内置字典去除溶剂和盐类,对一些官能团的描述进行标准化,最后转换成规范的微笑。请注意,在这项研究中只使用长度小于等于1000的微笑(IJC的默认设置)。对于具有一个以上互变异构体的化合物,假设最合理的一个在ChEMBL中注册,并按规定使用。当一个复合目标对有多个pIC50值时,采用最大值(= 最活跃值)。
数据划分
对于每个目标,数据集被随机分为两个子集,一个训练验证集(90%)和一个测试集(10%)。训练验证集又分为训练集(88.8%)和验证集(11.2%)。分裂后这三个亚群的大小之比约为80:10:10。
图卷积神经网络
首先,在DeepChem(DeepChem的默认设置)中实现的RDKit25将每个规范微笑转换成每个原子75维的二进制向量。这些载体包括物理化学性质,如原子类型、价态数、形式电荷和杂化(补充表S1)。简单地说,以初始向量为输入,在图卷积层中加入相邻原子的信息,在图池层中用相邻原子的最大值更新原子的信息。重复此操作后,向量被转换为一个密集层。将稠密层所代表的数值矢量叠加在图形采集层,生成化合物的“神经指纹”。图形收集层被完全连接到一个神经元的输出层,并且整个网络被训练以最小化损失函数,使得每个输出层再现其相应的pIC50(补充图S1)。以Adam为优化方法,ReLU(卷积层)和tanh(图收集层)为激活函数,采用批量归一化方法防止过拟合,提高学习效率。
超参数优化与模型训练
为了优化超参数,在整个研究过程中,通过pyGPGO包26和DeepChem 2.1.0应用高斯过程的贝叶斯优化。在GCN架构中,主要使用两到四个卷积层5、6、7、8、9、10。另一方面,在我们的初步实验中,我们发现具有一个卷积层的“浅”网络结构比“深”(两个或更多层)结构的性能更好。此外,初步结果还表明,适当的卷积层数最多为4层,而增加卷积层数会影响预测能力。基于这些观察,我们分别研究了具有一层、两层和三到四层卷积结构的超参数。以Matérn核作为协方差函数,以“期望改进”作为获取函数,进行100次贝叶斯优化搜索。使用随机种子值初始化的不同权重重复此计算四次。对于用于检查数据集大小对模型性能影响的小数据集,应用了有限的参数范围。
在定量活度预测中,平均绝对误差(MAE)、均方根误差(RMSE)和决定系数(R2)被广泛用作模型性能的统计度量,并通过公式计算。(1)–(5).
其中和fi表示已报告和预测的ith化合物活性,y是yi的平均值,n是化合物的数量。我们使用MAE和等式(6)中定义的新度量(2R2\u MAE)来评估超参数设置。
2r2u-MAE基于下面的简单想法;它的值越高越好。
(1)
对于给定相同MAE的参数设置,R2值越高越好。(这由第一项R2−MAE表示)。
(2)
如果参数集中的第一项具有相同的值,则R2值越高的集越好(R2是第二项)。
从一组经过100次贝叶斯优化搜索以最小化MAE值而获得的100个超参数中,选择一个具有最大2R2\u MAE值的超参数集作为保持验证集,最后为每个网络结构获得4个超参数集。由于“浅层”网络结构往往比“深层”网络结构给出更好的R2值,因此,如果具有一个卷积层的网络的所有R2值都低于0.45,我们将重新运行1000次超参数搜索计算。对于具有两个卷积层的网络,保留R2值为0.40或更大的超参数集。对于较深的网络,当其R2值高于较浅网络的任何R2值时,超参数集被保留。
最后的模型训练是在固定初始种子的最佳超参数集(不包括epoch)上进行的。对于每个模型,首先计算100个时期。如果在接下来的100个时期内,保持验证集上的最小MAE没有进一步降低,则学习终止。当MAE值降低时,再进行100个学习期,重复相同的程序,不设置总学时数的上限,直到在额外的100个学时内,先前的最小MAE不再改变。在学习之后,计算每个历元的2R2\u-MAE值,并选择2R2\u-MAE值最大的模型作为最终模型。最终的模型是使用deepchem1.3.0构建的。在deepchem1.3.0和2.1.0中实现的用于超参数搜索的图卷积算法是相同的。
集成学习
集成学习是机器学习中的一种常用技术,它可以构造和组合多个模型。许多研究表明,与单个模型相比,集成学习提高了预测精度23,27,28,29。我们应用这项技术,只是简单地平均每个输出而不加权。在本报告中,预测的pIC50值是指集成学习的输出,除非另有说明。
支架多样性
考虑到数据集的结构多样性是影响模型预测性能和可推广性的因素之一,我们通过移除化合物的所有侧链并用碳取代所有重原子来评估了ChEMBL中Murcko支架30的分布。通过采用信息论中Shannon的定义,引入定量支架多样性指数(H)作为式(7)。
在这个公式中,pi是含有特定支架的化合物数量(ci)相对于化合物总数(c)的分数。
较小的H值意味着分布更偏向于特定的支架,而对于均匀分布则获得最大值。IJC在ChEMBL中发现了145515个支架。对于每个数据集,支架按支架大小(构成支架的碳的数量)按升序排序,转换成每箱包含10000个支架的直方图,并将每个箱子中的化合物数量除以数据集中的化合物总数(注意,第15个箱子只有5515个支架)转换为概率分布。由于没有合理数量的垃圾箱,我们在整个研究中使用了15个垃圾箱,参考先前的报告31,32。对于15个箱子,H的最大值为3.91(Hmax=log2(15) = 3.91)。
除H外,我们还采用Kullback-Leibler散度(KLD)作为度量标准来量化随机分裂前后数据集之间支架分布的差异。
其中qi是未分割数据集中支架的概率分布,pi是训练集、验证集或测试集的概率分布。KLD总是非负的,当qi=pi时,最小值为零。用于H计算的相同直方图也用于计算KLD。
材料
西酞普兰和CHEMBL1377753(5-氯-2-(哌啶-4-基)-1,3-苯并噻唑盐酸盐,1)购自Namiki Shoji(日本东京)。在体内试验中,1在使用前溶解在盐水中。对于体外试验,将西酞普兰和1溶解在Hank's平衡盐溶液(HBSS;Thermo Fisher Scientific,Waltham,MA,USA)中,并在20°C下储存直至使用。
HEK细胞SERT底物摄取测定
根据制造商的说明和先前的报告33,使用神经递质转运体摄取分析试剂盒(R8173,Molecular Devices,San Jose,CA,USA)进行IC50测定。简单地说,HEK293细胞以3.85×104个细胞/孔的密度接种在96孔黑壁透明底板(奥地利Kremmünster Greiner,655090)上。使用Lipofectamine 2000(Thermo Fisher Scientific)将质粒DNA(hSERT-pcDNA3(Addgene#1548334)或pcDNA3;200 ng/孔)转染细胞。培养28-30小时后,直接用于IC50测定。测定IC50时,将培养基改为HBSS。然后,依次向培养物中添加含HBSS的药物和含HBSS的染料。孵育60分钟后,通过Wallac 1420 ARVOsx多标记计数器(Perkin Elmer,Waltham,MA,USA)测量荧光。背景被定义为含有每种药物浓度的pcDNA3转染孔的荧光,以减轻应用药物的可能荧光的影响。特异性摄取被定义为每一个转染的hSERT的荧光减去相应的背景。比摄取量标准化为无药物时的摄取量。IC50值使用Prism 8(GraphPad软件,圣地亚哥,加利福尼亚州,美国;https://www.graphpad.com/scientific-software/prism/).
动物
所有动物护理和实验程序均由京都大学动物研究委员会批准(批准号19-41),并按照该委员会的伦理准则进行。成年雄性C57BL/6J小鼠(8-16周大,体重22-28克。日本静冈SLC)分组饲养(单个笼子中不超过6只老鼠),可自由获取食物和水,并保持在恒定的环境温度(24±1℃)和湿度(55±10%)下,光-暗循环12小时。动物被随机分配到每个实验组。所有的行为测试都是在白天的光周期中进行的。
行为测试
所有的行为测试都是由那些对注射药物视而不见的实验者进行和分析的。尾悬挂试验如前所述进行35。简单地说,驯化后,将小鼠挂在钩子上(离试验箱地板35厘米),尾部用胶带固定在试验箱天花板(40 ××40 ××40厘米)的力传感器(PowerLab 2/26,AD Instruments,Dunedin,New Zealand)上。记录6分钟的不动时间。在试验前15分钟给药。在整个试验过程中记录小鼠的行为,在尾部悬吊试验期间用前肢托住后肢或爬上尾巴的小鼠被排除在分析之外。在所述尾部悬挂试验35后至少2天进行露天试验。使用了一个由白色亚克力立方体(50 ×× 50 × 50 cm)组成的露天竞技场。试验前15分钟给药。每只动物的行为用摄像机记录10分钟;记录的数据用视频跟踪系统自动分析(ANYmaze版本4.99,Stoelting,Wood Dale,IL,USA)。测量每次治疗期间的总行驶距离。所有统计检验均采用Prism 8(GraphPad软件)进行。除非另有说明,否则组间比较采用单因素方差分析(ANOVA)和Dunnett多重比较检验。在P < 0.05时,差异被认为是显著的。
结果与讨论
数据集
通过上一节描述的程序,从ChEMBL中选择了一个包含8个蛋白质家族127个目标蛋白的基准数据集。7个目标的数据集大小小于1000(461–739),120个目标的数据集大小大于1000(1408–11632)(补充表S2、S3)。
适当地加入非活性化合物可以提高分类模型的预测精度6,36。以此类推,在构建回归模型时,数据集可能需要具有广泛的活动值。高于或低于分析检测限的定性测量,例如IC50 >100000 nM,按“原样”使用,无偏移。
所报告的pIC50值的分布范围直接影响R2,如式(3)所示。乙酰辅酶a羧化酶2和α1A肾上腺素能受体的最大和最小pIC50分布范围分别为5.15和30.0。30.0的大值是由于一种logKi = 19的化合物,它可能在ChEMBL中被错误地注册(最初的论文将其列为1μM37的19%抑制)。尽管极端异常值可能会对可预测性产生负面影响,但如果验证集的R2值大于上一节中描述的阈值,我们将其包括在内。
在对数据集进行随机分割后,利用验证集优化超参数,利用测试集评价模型的可预测性。
超参数优化与模型训练
与其他机器学习方法类似,GCN对超参数的选择非常敏感38。表1显示了搜索到的参数及其范围。图卷积层大小的上限是分类任务6、7、8、9、10中报告值的9到32倍。对于表中未列出的参数,使用了DeepChem的默认值。请注意,对于小数据集,我们限制了范围以减轻过度拟合和学习不足的问题。
R2、MAE和RMSE值通常用于评估回归模型的性能。R2值为1表示预测完美,值越低表示预测精度越差,更容易直观判断模型的性能。然而,由于R2受所用数据集的活动范围的影响,如公式(4)所示,因此有必要在不同数据集的模型之间仔细比较性能。与R2不同,MAE或RMSE越低越好。关于应该使用哪种度量标准,有一些建议和关注39,40。
两者之间的关系如式(10)所述。
RMSE的上限等于MAE乘以数据集大小n的平方根,这意味着RMSE会随着数据集大小的增加而增加,这意味着评估不同数据集大小的模型性能可能很困难。此外,在研究通过超参数搜索获得的各种参数集的MAE、RMSE和R2的过程中,我们注意到有些超参数集的MAE值仅略低于最小的MAE值(例如,0.84对0.86),即使它们的R2值更好(0.54对0.67)。基于这些原因,我们使用MAE和2R2_-MAE来评估超参数集。R2通常取[0–1]的值。MAE的值为[0–∞],与R2的单位不同。在我们的数据集中,MAE值大约在[0–1]的范围内,我们认为应用R2和MAE的算术运算(如式(6))来执行超参数集的实际评估不会引起重大问题。
由于2R2_-MAE是基于R2和MAE之间的平衡,因此有一种担心,即可能是R2高(理想)、MAE高(不理想)和2R2_-MAE高(似乎理想)。为了研究这个问题,我们比较分析了基于最大2R2μMAE和最小MAE准则的超参数组合对验证集MAE和R2值的影响。结果表明,对于选择了最大2R2\u MAE值的超参数集,MAE值比最小MAE值稍差(平均增加0.0046;最大增加0.092),而R2值则趋于较好(平均增加0.0082;最大增加0.14)。总的来说,基于2R2\u-MAE标准的超参数选择似乎在我们的数据集中提供了合理的模型(图1a,b)。
卷积层和稠密层的大小随着数据集的变化而变化,同时它们的大小趋于接近参数搜索范围的上限。这一结果与之前的报告12,23类似,其中隐藏层较大的活动分类模型表现出良好的性能。
训练集使用一个固定的随机种子,使用满足最大2R2\u-MAE标准的最佳超参数集(除历元外)进行再训练。一些模型在再训练后没有在合理的范围内重现验证集上的预测性能。例如,在超参数优化过程中显示R2 = 0.53的超参数集在再培训后显示R2 = 0.16。在大约1.2%的总模型中发现缺乏再现性,但是这些模型被排除在集成学习之外,导致每个目标有6到9个单独的模型。
一般来说,具有更多隐藏层的DNN能够更好地提取复杂的高级特征,并显示出更好的性能。另一方面,我们所研究的大多数性能良好的模型都有一个卷积层,在超参数搜索过程中,四个卷积层的模型对任何目标的性能都没有超过三个卷积层的模型。这种明显差异的一个可能解释是,最大池层不仅提取了化合物的特征,而且使信息变得不必要的粗糙。GCN本质上是拉普拉斯平滑的一种,有人指出,重复应用拉普拉斯平滑可能会使化合物的局部化学环境难以区分,这可以解释我们的结果41。利用图卷积的特点,即随着层数的增加,可以吸收更远处原子的信息,目前的体系结构还有改进的余地。
集成学习
对单个模型所作的预测进行平均,而不进行加权,以生成集合预测。图1c,d比较测试集上的MAE和R2。在图1c中,对角线下方区域中的点表示集成学习的更好性能,并且120个目标落在该区域中。在图1d中,对角线上方的点表示集合预测比最佳单个模型获得更好的结果,并且94个目标位于该区域。采用单侧Wilcoxon符号秩检验对最佳个体模型和集成学习的MAE和R2分布均值的差异进行统计显著性检验。无效假设被拒绝,分别为P = 5.51 × 10–20和1.02 × 10–8,表明整体学习的平均MAE较低,平均R2较高。集成模型的性能改进与其他研究23、27、28、29的结果一致。这一改进表明,可以有许多准最优的超参数组合,因此,即使是类似的组合也可能捕捉到化合物的不同特征。
根据经验法则,我们认为满足MAE < 0.6或R2 >0.6的模型是一个好模型。在本研究中,86%(111个靶点)和91%(116个靶点)的模型分别符合MAE < 0.6和R2 >0.6的标准。总的来说,这些模型定量地预测了多种靶蛋白的活性。表2列出了基于每个蛋白质家族的MAE值的前四个集成模型及其相应的单独模型。所有目标的详细情况见补充表S3。
图2显示了八个蛋白质家族中每一个的集成学习性能。所有蛋白质家族中第75百分位(第三个四分位)的MAE小于0.6。只有两个靶点超过0.8,即神经元乙酰胆碱受体α4/β2和人类免疫缺陷病毒1型蛋白酶,可能是因为大约2%的化合物始终显示出非常低的预测pIC50值,从而增加MAE。验证集和测试集的MAE值往往大于训练集的MAE值,这表明出现了某种程度的过度学习,尽管大多数MAE值符合我们的MAE < 0.6的标准。
图像数据的卷积神经网络模型比较(KekuleScope)
化合物二维图像的卷积运算已被用于毒性和药理活性的定性和定量预测。输入图像可以是二维草图42、43或作为三维图片44绘制的合成物的快照。每个化合物的特征向量通过对其图像数据42、43、44、45进行卷积运算来提取。
Cortés-Ciriano等人研究了具有广泛用于图像识别的结构ResNet-52和VGG-19的二维复合图像数据,并报告了他们的模型(KekuleScope)定量预测了来自ChEMBL(版本23)43的25个靶蛋白的pIC50。我们建立了KekuleScope数据集的GCN模型,并将RMSE值与KekuleScope数据集的RMSE值进行了比较。因此,我们的RMSE值相当于KekuleScope的值,虽然是间接的,但接近于同时报告的随机森林(RF)模型和完全连接的深层神经网络(FNN)模型(表3,补充表S4)。此外,我们比较了22个使用ChEBML(版本25)构建的模型的RMSE值,发现所有值都等于或低于KekuleScope、RF和FNN的值。这一观察结果表明,可以从二维结构中提取足够的特征来预测它们的活动。
支架多样性和数据集大小的影响
数据集中结构的多样性,特别是训练数据,应该在模型的适用范围内加以考虑。结构多样性的一个广泛接受的定义是根据Murcko的脚手架30。许多报告已经应用这些支架来评估数据集的结构多样性23,46,47,并且已经产生了具有特权支架的化合物来表达感兴趣的活性48。ChEMBL共有145515个独特的支架,从胰岛素样生长因子I受体(707个支架)到碳酸酐酶XII(356个支架)。
即使靶点A和靶点B含有相同的支架,支架的分布是否相等也是另一个问题。目标A可能主要由具有小支架的化合物组成,而目标B中的大多数化合物可能具有大支架。为了分析结构多样性与支架分布之间的关系,我们采用Shannon熵(H)作为支架多样性度量,它可以定量地将各种连续和不连续的数据分布转化为它们的信息含量(式(7))。当支架分布用直方图表示时,如果划分为相同数量的箱子和相同的范围,则H值与箱子间隔的大小无关。在我们的数据集中使用的15格直方图中,H取0到3.91之间的值。ChEMBL本身是2.82,这意味着它偏离了均匀分布(H = 3.91)。当结合概率分布考虑时,我们发现偏差与偏向较小支架有关(图3a)。SERT的概率分布与ChEMBL相似,H值也相似(2.73),而血清素1A受体(5-HT1A)与SERT一样识别血清素,从第二个仓到第七个仓呈均匀分布,H值为3.31(图3b)。所有目标的详情见补充表S3。
图3c中的小提琴图描绘了每个蛋白质家族的H值分布。水平虚线表示2.82(ChEMBL的H值)。GPCRs和激酶的H值分布的第一个四分位数大于2.82,表明许多靶点具有更高的支架多样性。酶、离子通道和核受体表现出广泛的靶点,从具有高度多样性的支架到有限多样性的支架。
在初步筛选中选择各种化合物的重要性一直被报道49,50。训练集的结构多样性越大,支架越多,模型6的适用范围就越大。从这个角度出发,我们评估了数据集中H和MAE之间的关系。如图3d所示,未观察到相关性。训练集、验证集和测试集的Spearman秩次相关系数分别为0.11、0.023和0.062。这些结果表明,无论支架的多样性如何,所得到的模型通常都可以预测任何数据集。
分裂数据集之间支架分布的差异可能会影响模型的性能,因为据报道,采用非支架重叠方法往往会降低模型的可预测性10,28。即使应用了随机拆分,数据集之间也可能无意中出现不均匀的脚手架分布,尤其是对于较小的数据集。因此,我们引入KLD(等式(9))来量化数据集之间支架分布的差异。当被比较的分裂数据集之间的支架分布相同时,KLD的最小值为零。即使两个分裂的数据集产生相同的H值,它们也不一定具有相同的支架分布,分布的差异越大,KLD值就越大。
图3e说明了KLD和MAE之间的关系。加号表示少于1000个化合物的小数据集。正如预期的那样,训练集(蓝点)对所有目标都有非常小的KLD值,这解释了分裂前后几乎相同的支架分布。从1000多个化合物中分离出来的验证集和测试集的大部分KLD值在0.07以下显示出相似的KLD分布,这表明随机分裂函数与预期的一样。对于大多数小数据集,KLD值大于0.07,表明支架分布无意中有偏差。对于我们研究的127个靶点,KLD和MAE之间没有相关性。训练集、验证集和测试集的Spearman秩序相关系数分别为0.094、0.16和0.068。此外,即使对于数据集规模较小的目标,尽管KLD值较大,MAE的范围也在0.1到0.6之间。这些结果表明,在这个范围内支架分布的差异对模型性能没有明显的影响。
图3f比较了训练集的大小和测试集的MAE。同样,数据集大小和MAE之间没有明显的相关性。也没有明显倾向于支持特定的蛋白质家族。然而,正如另一份报告51所指出的,在小数据集中,由于固有的问题,如过度学习和学习不足以及相对噪声影响,以面值评估模型的性能可能不太明智。
数据拆分的影响
为每个蛋白质家族选择两个数据集最大的靶点和两个数据集最小的靶点,研究数据分裂对模型性能的影响。对于每个目标,我们重复训练验证集的随机分割两次,总共生成三个数据集(集合1、2和3)(补充图S2)。为这三个数据集建立的GCN模型显示出等效的预测性能(补充表S5)。
虚拟筛选
为了进一步评估我们模型的性能,除了分析类型 = B过滤器外,根据材料和方法一节中所述,计算了来自ChEMBL的1777353种化合物的SERT活性。由于市售选择性5-羟色胺再摄取抑制剂(SSRI)的辛醇/水分配系数(logP)值在2.29到5.15之间(用IJC计算),因此使用logP过滤器缩小了化合物的范围。从满足logP > 2的化合物中,经目视检查,SERT的预测pIC50 ≥ 7.5,5-HT1A受体的pIC50 ≤ 6.0,单胺相关蛋白或阿片受体(SERT、其他5-羟色胺受体、多巴胺受体和转运体、阿片受体和肾上腺素受体)没有分析报告,购买现成的1(图4a)并进行药理活性试验。
体外试验
我们测量了在瞬时表达SERT的HEK293细胞中1的抑制活性,其预测的IC50约为10nm(pIC50 = 7.97)。SERT的特异性摄取被1和西酞普兰(一种SSRI)以剂量依赖性方式抑制(图4b)。非线性回归分析显示1和西酞普兰的IC50值分别为6.24nm和2.13nm。
通过IJC对10270个具有SERT活性数据的ChEMBL化合物进行结构相似性计算时,最相似化合物(Tanimoto系数 = 0.78;值越大,化合物越相似)的pIC50为5.93,比1的活性弱100倍。此外,1与最具活性的化合物(报道的pIC50 = 11.70;一种已被研究为钙敏感受体拮抗剂的解钙剂)的相似性为0.26。通常建议,共享同一支架的化合物不应在训练、验证和测试集中同时使用。然而,我们的结果表明,GCN模型可以了解局部化学环境和化合物活性值之间的关系,并且可能需要较少的支架分布控制。
行为测试
由于SSRIs被广泛用作抗抑郁药52,我们研究了1在小鼠中是否具有抗抑郁药样疗效。给药1(10 mg/kg,i.p.)显著缩短了尾悬吊试验中的不动时间,这是抑郁样状态的代表,而在野外试验中,它不影响一般的运动活动(图4c,d)。从logP值2.94判断,1可能分布在中枢系统,可能有抗抑郁作用。在ChEMBL中,1对瞬时受体电位典型4(pIC50 = 8.10)和核因子红细胞2相关因子2(pIC50 = 6.19)的活性已被报道。因此,也可以假设抗抑郁药的作用是通过作用于这两个或其他未知靶点而发生的。
结论
应用GCN结构,仅从化合物的二维结构信息中提取特征,构建了ChEMBL中127个目标蛋白的定量活性预测模型。我们将超参数的范围扩展到分类任务中报告的范围之外。在本研究中,大部分性能良好的模型都有一个卷积层,而四个卷积层的模型在超参数搜索过程中没有一个优于三层模型。与单个模型相比,集成学习提高了预测性能。
使用KekuleScope数据集建立的GCN模型的预测性能与KekuleScope(CNN)模型的预测性能相当,间接地,RF和FNN模型通常用作比较的基线方法。有趣的是,我们使用ChEMBL(版本25)构建的模型显示出比CNN、RF和FNN模型更好的性能,尽管应该注意到KekuleScope数据集中的数据准备方案和定性测量处理与我们的数据集中的不同。
从各种数据源收集的数据库包含各种实验条件下的测量值和噪声,例如逆转录酶的模板和底物53。通过考虑这些因素,活动预测模型的性能得到了改善53。由于本研究仅使用了材料和方法章节中描述的过滤器(标准关系为“>”、“≥”、“=”、“≤”和“<”;排除了不确定数据、重复数据和错误),因此需要进一步调查。例如,当同一个复合靶对有多个实验值可用时,本研究中使用的最大值与先前报告的6、9、18相同,但其他报告行使用的是中位数11、23、53和平均值43,因此,采用不同的数据预处理方法可以进一步提高模型的预测性能。
除了构建模型外,我们还量化了复合支架的多样性,并证明了多样性对模型性能的影响较小。虚拟筛选进一步验证了我们模型的普遍性,发现了一种具有SERT活性的新化合物,与西酞普兰相当。
即使建立活性预测模型所依据的靶点是“不吸引人的”,这些模型也可以为药物重新定位、警告潜在的偏离靶点、在药物开发的早期阶段确定策略的优先顺序、寻找多药理药物以及寻找支持阐明活性的工具化合物提供有用的提示生物学功能的分子机制。从这一观点出发,我们认为一个不是通过二元分类而是通过定量预测对化合物进行排序的模型是药物发现研究中一个有用的工具。我们相信,我们的GCN结构可以在这项工作中发挥关键作用,因为我们获得了一种新的SERT作用化合物,其活性与临床有效药物相当。
数据可用性
本研究中使用的代码和数据集可根据要求从相应作者处获得。