【ZT】汉堡大学Rarey课题组JCIM发表观点:当虚拟筛选遇上机器学习,我们的初心是啥?

文章来源:微信公众号 - ComputArt计算有乐趣 2019-5-28

近年来大数据和机器学习方面的突破性进展,使得基于机器学习的药物设计成为药物研发领域中追逐的新热点。应用机器学习方法在虚拟筛选中的成功案例也屡见报道。然而机器学习所建立的模型基本是一个黑匣子(black box),大多数情况下人们无法获知数据中的哪些特征是决定性的,也不清楚模型预测的“真实结果”是否有“真实原因”可循,抑或仅仅是由于数据集本身内容的偏重所致?对于基于机器学习方法的虚拟筛选,如何评价其真实的性能?需要建立什么样的标准测试集,发展什么样的评价策略?德国汉堡大学Rarey教授课题组针对这些问题进行了分析,最近在美国化学会出版的Journal of Chemical Information and Modeling杂志"Machine-Learning in Drug Discovery"专刊上发表了观点(J. Chem. Inf. Model. 2019, 59, 947-961)。

作者首先选择三个常用的虚拟筛选标准测试集作为研究对象,包括DUD,DUD-E和MUV。DUD和DUD-E由Shoichet等人基于ZINC数据库发展而来,用于评价基于结构的虚拟筛选方法(如分子对接方法)。MUV则由Rohrer等人基于PubChem数据库构建获得,用于评价基于配体的虚拟筛选方法。以这三个标准测试集的无偏重特征及其组合为描述符,作者采用随机森林方法建立虚拟筛选的预测模型,并通过两种交叉验证实验(如图-1(1)和(2)所示)对模型的筛选性能进行评价。

图-1 三种交叉验证实验示意图。(1)靶标内交叉验证:将每个靶标的配体分子随机分为训练集和测试集进行3倍交叉验证;(2)靶标间交叉验证:随机挑选m个靶标中部分靶标及其配体分子作为测试集,剩余靶标及其配体分子作为训练集进行3倍交叉验证;(3)留一法靶标间交叉验证:随机选择某一靶标及其配体分子作为测试集,选择与该靶标相似度低于某一阈值的靶标及其配体作为训练集进行n倍交叉验证。
图-2 随机森林方法对DUD,DUD-E和MUV三个数据集无偏重特征的虚拟筛选评价结果,横坐标为训练模型所用的特征数目,纵坐标为虚拟筛选的平均AUC值。(a), (b)和(c)分别为靶标内交叉验证实验在三个数据集上的结果;(d)和(e)为靶标间交叉验证实验在DUD和DUD-E数据集上的结果。

三个标准测试集的无偏重特征在活性化合物和非活性化合物中具有近似的均值和方差值。作者认为以无偏重特征作为筛选条件,其筛选效果与随机筛选相当,虚筛富集曲线的AUC值应接近0.5。然而,基于机器学习方法的虚筛结果显示(图-2),即使采用单个特征,随机森林方法仍然能够较好地区分这三个标准测试集中的活性与非活性化合物。特别是当多个特征组合时,在DUD和DUD-E标准测试集上,靶标内和靶标间的交叉验证实验所得的AUC值接近1.0和0.8。这意味着,对于机器学习方法来说,低维度特征已经足够用于区分活性与非活性化合物。作者因此认为:在对采用更复杂特征描述符的机器学习方法进行评价时,应当选择基于低维度描述符的结果作为一个合适的评价基准线。

作者进一步以DUD/DUD-E为标准测试集,对两种基于卷积神经网络的深度学习方法DeepVS和基于格点的三维卷积神经网络进行评价。前者通过配体分子中每个原子的局部相邻原子的基本特征(如原子间距离,原子类型,原子电荷等)来描述蛋白-配体之间的相互作用(图-3(a))。后者则是将配体分子的三维构象置于覆盖蛋白结合口袋的格点盒子中,采用基于格点的三维描述符来表征蛋白-配体之间的相互作用(图-3(b))。

图-3 (a)DeepVS描述符示意图。以N3原子(黄色)为例,配体分子上邻近的原子共有三个:N3,H和C2,蛋白分子上邻近的原子共有CD和OE,分别对应参数kc=3, kp=2; (b)基于格点的三维描述符示意图。每个格点保存原子类型,空间距离等相关信息。

文献报道DeepVS方法在DUD测试集上经留一法交叉验证获得的平均AUC值为0.81。作者摒弃蛋白部分信息,仅基于配体分子的随机构象用于构建DeepVS方法的预测模型,经留一法交叉验证获得的平均AUC值为0.79。这与基于三维描述符所得的结果没有显著差异。与采用配体二维拓扑特征的随机森林方法在相同标准测试集上的预测结果相比(平均AUC值为0.78),DeepVS方法也没有体现出明显的优势。作者采用基于格点的三维卷积神经网络方法在DUD-E测试集上进行类似的对比实验也获得了相同的结论。作者对此给出的解释是:DUD/DUD-E测试集的构建原理表明配体的二维拓扑结构是区分活性与非活性化合物的决定性特征。DeepVS和基于格点的三维卷积神经网络方法的三维描述符中隐式地包含了二维拓扑特征。因此,配体的二维拓扑特征足以用于对活性和非活性化合物进行有效区分。这也表明,DUD和DUD-E标准测试集对于基于配体二维拓扑特征的方法是有偏重的。它们并不适用于评价具有复杂多维描述符的深度学习方法的真实表现。

那么在存在可能偏重的前提下,如何正确设计基于机器学习的虚拟筛选的评价测试?如何有效控制这些偏重对评价结果的影响?作者结合自己的研究及他人经验提出一些参考准则:

  • 验证数据集的适用范围,如DUD/DUD-E偏重于基于配体二维拓扑特征的方法。
  • 深刻理解所使用的机器方法和描述符。
  • 基于简单、可解释的特征定义合适的评价基准线,如采用随机森林方法对单维特征进行训练建模。
  • 设计合理的对照实验来验证无因果关系的偏重(如将高维描述符简化为低维特征),帮助挖掘预测模型中的决定性特征。
  • 尽可能地引入阴性实验数据,提高数据的质量等。

如前所述,机器学习得到了人们的广泛关注,但是其真实能力以及可应用范围仍然需要人们谨慎看待。Rarey教授课题组的研究工作揭示了应用机器学习方法中可能隐含的问题。他们提出的经验准则为客观评价机器学习方法提供了重要的参考。

参考文献:Sieg, J.; Flachsenberg, F.; Rarey, M. In Need of Bias Control: Evaluating Chemical Data for Machine Learning in Structure-Based Virtual Screening. J. Chem. Inf. Model. 2019, 59, 947-961.
DOI: 10.1021/acs.jcim.8b00712

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343

推荐阅读更多精彩内容