随机森林模型如何提升多肽分子对接准确性?


 

导读

通过随机森林分类器,提高多肽分子对接的准确性。

近年来,60 种多肽药物在主要市场获批和超过 150 种多肽进行临床试验,多肽治疗领域受到广泛关注。

然而,传统对接评分函数多为小分子设计,使得多肽分子对接在合理药物设计中表现不佳,成为研究的难点。

本文介绍了一种随机森林分类器,该分类器专门用于区分正确的多肽对接。

研究表明,在一个包含 47 个蛋白质-肽复合物的测试集(与训练集结构不同,此前用于评估 AutoDock Vina 对多肽对接能力的基准)上,这些分类器将 AutoDock 评分函数的对接能力从约 25%提升至平均约 70%。

为了开发这些分类器,作者整理了 ProptPep37_2021 数据集,这是一个经过筛选的高质量晶体蛋白质-肽复合物数据库,带有结构相似性信息。该数据集还提供了一系列高质量的假定构象,与晶体构象偏差范围相对应,为每个条目提供了正确和错误的肽构象(即诱饵)。ProptPep37_2021 数据集以及本文介绍的分类器均可免费获取。

研究设计与方法

  • 研究设计: 研究者复现了先前文献中 47 个蛋白质-肽复合物的分子对接结果,使用了 AutoDock Vina 和 ADFR。
  • 数据集构建: 从 RCSB 数据库筛选高质量蛋白质-肽复合物,创建 ProtPep37_2021 数据集。该数据集遵循严格的筛选标准,包括肽链长度、结构分辨率和蛋白质-肽的相互作用。

ProtPep37_2021 数据集的组成

  • 数据集规模: 包含 322 个蛋白质-肽复合物,肽链长度在三到七个氨基酸之间。
  • 结构多样性: 数据集中蛋白质链结构上的多样性,对确保模型泛化能力至关重要。

蛋白质-肽结合模式

  • 结合方式: 研究团队对 322 个复合物进行视觉检查,识别出肽链的不同结合模式,如闭合口袋、隧道结构等。
  • 结合位置: 通过分析肽链在蛋白质表面的结合方式,提供了深入理解肽链与蛋白质相互作用的新视角。

结构相似性评估

  • TM-score 评分: 使用 TM-align 软件计算蛋白质链间的结构相似性,TM-score 评分从 0.0 到 1.0,高分表示高相似性。
  • 数据集多样性: 大多数链的相似性分数低于 0.4,显示出 ProtPep37_2021 的结构多样性。

构建假定构象集合(CPP)

  • 目的: 训练机器学习模型和评估对接性能,需要创建包含正确和错误解的假定构象集合 CPP。
  • 方法: 使用 ADFR 进行重对接,生成每个复合物的初始构象集。

随机森林模型训练

  • 特征定义: 定义 22 个特征,分为能量项、表面积相关特征和氢键相关特征。
  • 模型构建: 使用 Python 的 scikit-learn 库训练随机森林模型,处理大量特征并妥善处理特征间相关性。
  • 防止过拟合: 限制训练集和测试集间的结构相似性,确保模型真实性能。

性能评估

  • 对接能力(Docking Power): 评估函数 f 在将正确构象作为最高排名构象的能力。通过分析最高排名构象与晶体学构象的 RMSD 值来计算。

主要结果

  • RF 模型的性能随着 RMSDTP 截止值的增加而降低。
  • 利用 ADFR 评分可以显著提升 RF 分类器的性能。
  • 结合原始和标准化特征训练的 RF 模型表现最佳。

研究者在分析 RF 模型性能和选择时首先发现,所有 RF 分类器在利用 ADFR 评分对构象进行排名时表现显著提升。不同的 RF 分类器均呈现出性能随着 RMSDTP 截止值增加而下降的趋势,可能是由于 RMSDTP 截止值提高导致训练样本中假阳性特征值增多,从而影响了决策树的预测能力。

就 RF 分类器的整体性能而言,仅使用 AutoDock 小分子特征的模型表现最差,而结合其他特征的 ADRS 和 ADRSH 模型表现最佳。特别是在 RMSDTP=0.0 时,这些模型性能相近且最优。在验证集上,rADRS 模型被选为「最佳」模型,因其直接使用 AutoDock 评分函数中的特征,并且在 RMSDTP 0.0 时,ADRS 与 ADRSH 性能相同,但使用的特征较少。

在测试集上应用分类器时,所有 RF 模型均超越了训练集的范围,实际上在测试集上的表现甚至更好,这表明测试集相比随机选择自训练集的集合更为简单。此外,观察到随着 RMSDTP 值的增加,性能逐渐降低,使用原始特征进行训练的模型表现最佳。

这些结果表明,通过非线性组合 AutoDock 能量项的 RF 分类器极大提高了对接性能,超过了 AutoDock 评分函数的线性组合。此外,这些模型从增加的表面相关特征中受益,表明这些额外的特征捕捉了当前 AutoDock 评分函数无法获取的信息。

在蛋白质配体对接应用中,尽管开发这些 RF 模型的初衷是用于蛋白质对接,但目前介绍的方法和软件不执行对接,仅用于对现有、预生成的构象进行重新评分。基于这些结果,预期在蛋白质对接时使用这些 RF 分类器将大大提高对接成功率。这一假设得到了测试集上 CPPs 重新排序与实际对接模拟的对接能力类似的事实的支持,表明 CPPs 代表了模拟对接模拟的合理构象集合。此外,尽管训练集规模较小,但每个模型训练的 12 个分类器的表现差异不大,表明这些分类器在不同样本上训练时同样有效且稳定。而特征重要性的类似排名进一步表明,这些模型依赖于类似的特征来分类构象。这些迹象增强了我们的信心,即这些分类器在对接过程中用于对接构象的排名时将提高性能。

表格一:复合物统计数据

表格 1 展示了正确与错误分子对接构象的复合物统计数据。所谓真阳性,是指构象的 RMSD(均方根偏差)值不超过 2.0 Å。

表格二:特征描述及其包含的特征集

表格 2 详尽列出了四个特征集中包含的特征描述。

a 代表小分子 AutoDock 评分函数的相关术语特征。b rAD 和 Ramachandra 能量项。c rADR 和与表面相关的特征。d rADRS 和与氢键相关的特征。

表格三:归一化特征描述及其在 RF 模型中的应用

表格 3 展示了在 RF(随机森林)模型中使用的归一化特征描述。

总结:

研究者精心构建了一个含 322 个晶体结构的蛋白质-肽复合物数据集。这些数据不仅明确了蛋白质链的相似性,还包含了正确与错误(诱饵)的构象。这个数据集对开发、测试和评估蛋白质-肽相互作用预测方法的社区具有重要价值。

依托该数据集,研究者开发了随机森林分类器,用以评估肽与其受体相互作用的特定配置的准确性。通过避免训练和测试集间的结构重叠,分类器得以实现超越训练集的外推能力。尽管机器学习技术已被广泛应用于小分子结合自由能的预测,并偶尔用于提升小分子对接能力,这是首次应用随机森林分类器提升肽对接构象的排名。研究证明,该分类器在后对接重排实验中显著提高了正确构象相对于错误构象的排名,其成功率与小分子对接相当,同时遵循了小分子对接领域通用的严格成功度量标准。

研究者讨论了将这些模型整合进 AutoDockFR 对接引擎的可能性,并预期这将显著提高对小肽的对接成功率。通过模型整合,研究者能够不断完善模型,因为将生成含有更具竞争力的错误解的新假设构象集合(CPP),用于训练。


参考资料:
  • Sanner, M. F., Dieguez, L., Forli, S., & Lis, E. (2021). Improving Docking Power for Short Peptides Using Random Forest. Journal of Chemical Information and Modeling, 61(6), 3074–3090. https://doi.org/10.1021/acs.jcim.1c00573 IF: 5.6 Q1 B2

  • Data and code:http://github.com/sannerlab/ProtPepRFScorePaper2021

— 完 —

点击这里👇关注我,记得标星哦~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,692评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,482评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,995评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,223评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,245评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,208评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,091评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,929评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,346评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,570评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,739评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,437评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,037评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,677评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,833评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,760评论 2 369
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,647评论 2 354

推荐阅读更多精彩内容

  • 所谓分子对接就是两个或多个分子之间通过几何匹配和能量匹配而相互识别的过程。在药物分子产生药效反应的过程中,药物分子...
    天禧68阅读 15,122评论 1 3
  • 对接的过程中会考虑如下因素: 形状互补 亲疏水性 表面电荷分布 两种蛋白质-蛋白质分子对接: Rigid Dock...
    桃子0阅读 1,192评论 0 2
  • 1、DNA,RNA和遗传密码 考试要求 (1)理解DNA的复制【1.3】和DNA的损伤修复基本过程和分子机制【1....
    木木子kinoko阅读 7,607评论 5 18
  • 生物信息的传递——从mRNA到蛋白质 蛋白质是基因表达的最终产物,它的生物合成包括: 1,翻译的起始 2,肽链的延...
    操控者阅读 6,767评论 0 3
  • 导读 FOXO3a 是一种关键的转录因子,负责调控细胞的多种生理过程,如凋亡、增殖、细胞周期控制、DNA 损伤修复...
    榴莲忘返2014阅读 284评论 0 1