[ZT] Anders Wallqvist小组JCIM论文:基于深度神经网络的QSAR模型是否有适用范围?

文章来源:微信公众号 - ComputArt计算有乐趣 2019-02-23

对于传统机器学习方法来说,最具有挑战性的问题之一是明确其模型的适用范围(applicability domain),而决定预测误差的最重要因素是与训练集的相似性。深度神经网络(DNNs)是近年来人工智能发展的主要驱动力,在图像识别等方面取得巨大进步,这也促使它们在其它领域的应用比如构建预测分子活性的QSAR模型。在已经报道的研究中表明,DNNs和其他机器学习方法相比表现出更好的分子活性预测能力,这提示人们DNNs或许可以克服在药物发现领域中预测模型面临的挑战,能够为新化学空间的探索提供指导并发现结构新颖的药物分子。然而大多数评估机器学习模型性能的方法都依赖于全局性指标,例如相关系数(R2)和均方根误差(RMSE)。虽然这种全局指标可以通过提供单个数字来方便地解释实验结果,但是这可能会错过不同活性范围内的单个分子或分子组的重要预测细节。

近日,来自美国陆军医学研究中心的Anders Wallqvist小组比较了三种机器学习方法——DNN,随机森林和变量最近邻法——预测分子体外和体内活性的能力。他们使用基于相似性的分层分析方法而不是仅仅用全局性指标R2或RMSE来评价模型性能,探究DNN是否能够真正学习新的关系,并提供比传统的机器学习方法更可靠的预测。令人惊讶的是,这三种方法的整体表现相似。对于在训练集中具有结构接近的分子,所有方法都给出了可靠的预测,而随着与训练集的分子相似性降低,预测的准确度越低。该项工作最近发表在美国化学会出版的Journal of Chemical Information and Modeling杂志上(J. Chem. Inf. Model. 2019, 59, 117−126)。

作者在Leadscope Toxicity Database选取了7项体内急性化学毒性的LD50数据集,以ECFP_4作为化学特征输入;14项logD数据集,来自于默克公司分子活性挑战中的数据,原子对描述符作为特征输入。

深度神经网络:作者使用2048:300:300:30:1的前馈神经网络架构。2048个 ECFP_4指纹特征作为所有数据集的输入,中间有三个隐藏层,最后输出单个神经元。建立七个单任务DNN分别用于7个体内毒性数据集。对于体外数据集,则从GitHub下载默克公司提供的Python代码实现Merck DNN模型。

随机森林:使用随机森林(RF)算法的Pipeline Pilot实现。每个数据集的RF模型由500个决策树组成,最大树深度为50。

可变最近邻:v-NN方法基于相似结构具有相似活性的原则,它根据近邻的分子的活性来预测分子活性。作者采用分层v–NN的方法:对于给定的测试化合物,以测试的化合物为中心将训练集的化学空间根据Tanimoto距离分成十层。第一层是半径为0.1的球体,第二层为半径为0.1到0.2以内的空间,其它层依此类推。

在建立v-NN模型时,作者仅使用最近一层中的训练集化合物信息来预测化合物的活性。为了评估分层v-NN预测的性能,作者对数据集进行10倍交叉验证计算,将不同层的预测毒性数据与实验结果进行比较。

与分层v-NN方法不同,RF和DNN方法使用所有训练样本的信息来构建模型,然后进行预测。为了以类似于分层v-NN方法的方式评估RF和DNN的模型性能,他们首先利用十倍交叉验证的方法对所有化合物进行RF和DNN预测,然后计算测试的化合物和训练集之间的Tanimoto距离,随后选取最短Tanimoto距离,根据该距离进行分层。令人惊讶的是,尽管RF和DNN都是更复杂的机器学习方法,两者的预测结果与分层v-NN方法的结果非常相似。

图1 表示三种机器学习方法在7个体外毒性数据集上的预测误差。可以看出,距离越大,误差越大。对于与训练集的最短Tanimoto距离小于0.4(1-3层)的化合物,三种方法的预测结果都高度可靠;如果距离在0.4-0.7(4-6层)之间,预测结果不够准确但与实验结果明显相关;如果距离大于0.7,则预测值与实验值无相关性。

图1、三种机器学习方法在七个体内毒性数据集上的预测误差

最后作者指出,分子活性预测准确性最重要的决定因素不是机器学习方法,而是与训练集的相似性。他们提出了使用机器学习方法改进分子活性预测的两条指导方案:


实验产生更多的数据并严格与预测误差联系起来。即通过实验得到足够多的训练模型所需的数据量,化合物的骨架结构尽可能多样化,同时严格定义有效的适用范围,以此来指导新化学结构的化合物实验值测定,不断拓宽模型的适用范围。


发展一种基于较少实验数据的可以学习生物关系的机器学习方法。通常的实验数据有物化性质、酶实验、细胞实验以及体内实验等数据,这些数据代表着丰富的化学和生物学过程。机器学习方法可以先学习生物过程的机制,然后再根据终点数据来对机制进行整合和询问。

参考文献:Liu, R., Wang, H., Glover, K. P., Feasel, M. G., Wallqvist, A. Dissecting Machine-Learning Prediction of Molecular Activity: Is an Applicability Domain Needed for Quantitative Structure-Activity Relationship Models Based on Deep Neural Networks? J. Chem. Inf. Model.2019, 59(1): 117-126. DOI: 10.1021/acs.jcim.8b00348

想了解更多CADD最新进展? 请关注专业的公众号: ComputArt计算有乐趣
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,616评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,020评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,078评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,040评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,154评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,265评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,298评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,072评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,491评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,795评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,970评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,654评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,272评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,985评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,815评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,852评论 2 351

推荐阅读更多精彩内容