部分依赖图(PDP或PD图)显示了一个特征对先前拟合模型预测结果的边际效应(J. H. Friedman 200126)。预测函数固定在选定特征的几个值上,并在其他特征上取平均值。
局部相关图可以表示目标与特征之间的关系是线性的、单调的还是更复杂的。例如,应用于线性回归模型,部分相关图总是显示线性关系。
在实践中,特征集合通常只包含一个特征或最多包含两个特征,因为一个特征产生2D图,两个特征产生3D图。除此之外的一切都相当棘手。即使是2D纸张或显示器上的3D也已经颇具挑战性。
部分依赖函数定义为:
截图1
其中XS是部分相关函数需要绘制的特征,XC是机器学习模型F中使用的其他特征。通常情况下,S集中只有一两个特征,S中的特征是我们想知道的对预测的影响。特征向量S和C的总和构成总特征空间X。部分依赖通过对机器学习模型输出的分布特性集C边缘化,所以函数显示了XS我们感兴趣的特性之间的关系,预测结果。通过边缘化其他特性,我们得到一个函数,它只依赖于S中的特性,与其他特性的交互。
截图2
部分函数f来通过计算训练数据的平均值得到,也称为蒙特卡罗方法。
依赖函数告诉我们对于给定的xS值,预测的平均边际效应是多少。在这个公式中,xC(i)是数据集中我们不感兴趣的特征的实际特征值,n是数据集中实例的数量。PDP的一个假设是,C中的特征与s中的特征不相关。如果违反这个假设,部分依赖图的平均值将包括非常不可能甚至不可能的数据点(见缺点)。
目前为止,我们只考虑了数值特征。对于分类特征,部分依赖关系是很容易计算的。对于每个类别,我们通过强制所有数据实例具有相同的类别来获得PDP估计。
Examples:
让我们回到回归的例子,在这个例子中,我们预测每天将租赁的自行车的数量。我们首先在数据集上建立机器学习模型,然后分析部分依赖关系。在这种情况下,我们拟合了一个随机森林来预测自行车的数量,并使用部分依赖图来可视化模型所学到的关系。天气特征对预测的自行车数量的影响:
对于温暖(但不太热)的天气,该模型预测平均自行车数量较高。当湿度达到60%以上时,潜在的骑行者在骑行过程中受到越来越多的限制。此外,风力越大,人们就越不喜欢骑自行车,这是有道理的。有趣的是,预测的自行车数量并没有在每小时25到35公里的风速之间下降,只是没有那么多的训练数据,所以我们不能对其效果有信心。至少凭直觉,我认为自行车的数量会随着风速的增加而下降,尤其是在风速非常高的时候。
为了说明一个带有分类特征的部分依赖关系图,我们检验了季节特征对预测自行车租赁的影响。
我们也计算子宫颈癌分类的部分依赖关系。这一次,我们随机选取了一个森林来预测女性是否患有宫颈癌,并给出了一些风险因素。在此模型下,我们计算和可视化了癌症概率对不同特征的部分依赖关系:
我们还可以同时可视化两个特征之间的部分依赖关系:
OK,从这些案例可以明白部分依赖图是干什么的了,我觉得更多是用在数据分析上啊。那为什么可以用这个部分依赖图来给机器学习模型做检测?
这个我觉得明天要看下具体这方面的论文是怎么做的。
我的博客:机器学习的可视化——部分依赖图