作者:小墨,如若转载,请注明出处:《如何进行虚拟筛选的方法学验证》http://blog.molcalx.com.cn/2016/09/22/virtual-screening-methodology-validation.html
摘要:本文主要讨论了如何评价虚拟筛选方法的性能,如何计算命中率、富集因子(EF)、绘制ROC曲线以及计算ROC曲线下面积(ROC AUC)。还讨论了为什么要选择合理的数据集进行方法学验证,并介绍了DUD与EDUD这两个社区数据集的利用。
作者:肖高铿
一. 背景
虚拟筛选的终极目的是将活性化合物从海量的数据库中尽可能地富集出来,在大规模虚拟筛选前需要考察一个虚拟筛选方法的性能:只有显著有效的方法我们才敢将之进一步用于大规模虚拟筛选。评估虚拟筛选方法性能常用回溯性验证:收集一个靶点的活性化合物与decoy化合物,进行虚拟筛选,用命中率(hit rate)、富集因子(Enrichment Factor,EF)与ROC曲线(Receiver Operating Characteristic Curve, ROC Curve)来评估虚拟筛选的性能。有的虚拟筛选软件比如Ligandscout与ROCS自带统计学工具评估虚拟筛选性能,大部分软件需要自己去评估统计学性能,因此有必要掌握如何计算EF与绘制ROC曲线。
3. ROC曲线与ROC AUC的绘制原理
就像高效液相分离性质相近的两个组份--目标化合物与杂质--一样,虚拟筛选要分离的两个组份是:活性(ligand)与非活性(inactive,decoy)化合物(如图1所示)。分子对接、药效团筛、分子形状与静电技术以及2D指纹图谱等等之类的虚拟筛选技术就像是柱子、虚拟筛选的参数就像是液相分离的条件,我们的目标是要使用合适的条件将活性化合物与非活性化合物这两个组份充分分离。无论是那种虚拟筛选技术,都是对化合物进行打分,打分值就像保留时间,通过对打分值的统计,我们可以评估一个虚拟筛选方法是否可以有效的将活性化合物从海量的数据库中分离、富集起来。
图1.虚拟筛选就象用高效液相分离性质相近两个组份--目标化合物与杂质--一样,只不过虚拟筛选要分离的两个组份是:活性(ligand,红色)与非活性(inactive/decoy,绿色)化合物。
ROC曲线(ROC Curve)是Operating Characteristic Curve的简称, 其绘制原理如图2所示。当我们根据虚拟筛选的打分值设定截断值,将优于截断值的化合物选出用于进一步活性测试,而将比截断值差的化合物抛弃掉;在这过程中有的阳性化合物被虚拟筛选判为阴性化合物,此时产生假阴性;阳性化合物被正确识别为阳性,称为真阳性;而阴性化合物而言,同理也有假阳性与真阴性。绘制不同截断值下的假阳性率与真阳性率图,即得到ROC曲线(绿色的那根)。
好的虚拟筛选方法,其ROC曲线应该尽可能靠近左上角,同时其曲线下面积(ROC AUC)也越大,理想的方法其ROC AUC=1。靠运气、随机命中方法的ROC曲线应该靠近对角线(虚线),此时ROC AUC=0.5。如果一个虚拟筛选方法接近对角线,说明该方法与靠运气的随机筛选无显著区别,就不值得用于这个项目中。如果一个虚拟筛选方法的ROC曲线位于对角线的下方,说明这个方法只能命中非活性化合物。
图2. ROC曲线绘制的原理
4. 绘制ROC曲线与计算ROC AUC的软件
少部分软件比如Ligandscout与OpenEye的ROCS自带ROC曲线绘制功能,大部分情况下需要自行绘制。免费的统计学软件R,KNIME等具有ROC曲线绘制的专用软件包,还有SPSS等通用软件一般也提供有ROC曲线绘制功能。
二. 实例介绍
四. 文献
(1) Yabuuchi, H., et al. (2011). "Analysis of multiple compound-protein interactions reveals novel bioactive molecules." Mol Syst Biol 7: 472.
(2) Enyedy, I. J.; Egan, W. J. Can We Use Docking and Scoring for Hit-to-Lead Optimization? Journal of computer-aided molecular design 2008, 22 (3-4):161–168.