复杂模型可解释性方法——LIME

一、模型可解释性

近年来，机器学习（深度学习）取得了一系列骄人战绩，但是其模型的深度和复杂度远远超出了人类理解的范畴，或者称之为黑盒（机器是否同样不能理解？），当一个机器学习模型泛化性能很好时，我们可以通过交叉验证验证其准确性，并将其应用在生产环境中，但是很难去解释这个模型为什么会做出此种预测，是基于什么样的考虑？作为机器学习从业者很容易想清楚为什么有些模型存在性别歧视、种族歧视和民族仇恨言论（训练样本的问题），但是很多场景下我们需要向模型使用方作出解释，让其清楚模型为什么要做出此种预测，如模型替代医生判断病情，给出病人合理的解释至关重要，在商业场景中，模型为公司做出决策，需要给出令管理层信服的解释。另外，给出解释也可以帮助我们进一步改善模型，优化特征，提高泛化性。

本文就LIME（ Local Interpretable Model-Agnostic Explanations， LIME）方法如何解释黑盒模型作出简要的介绍和公式推导，介绍其优缺点，文末附上自己的一些简单思考

二、 LIME

LIME的主要思想是利用可解释性模型（如线性模型，决策树）局部近似目标黑盒模型的预测，此方法不深入模型内部，通过对输入进行轻微的扰动，探测黑盒模型的输出发生何种变化，根据这种变化在兴趣点（原始输入）训练一个可解释性模型。值得注意的是，可解释性模型是黑盒模型的局部近似，而不是全局近似，这也是其名字的由来。

LIME的数学表示如下：

$explanation(x)=arg\min_{g\in G}L(f,g,\pi_x)+\Omega(g)$

对于实例 $x$ 的解释模型 $g$ ，我们通过最小化损失函数来比较模型 $g$ 和原模型 $f$ 的近似性，其中， $\Omega (g)$ 代表了解释模型 $g$ 的模型复杂度， $G$ 表示所有可能的解释模型（例如我们想用线性模型解释，则 $G$ 表示所有的线性模型）， $\pi_{x}$ 定义了 $x$ 的邻域。我们通过最小化 $L$ 使得模型 $f$ 变得可解释。其中，模型 $g$ ，邻域范围大小，模型复杂度均需要定义。