机器学习可视化——部分依赖图

部分依赖图(PDP或PD图)显示了一个特征对先前拟合模型预测结果的边际效应(J. H. Friedman 200126)。预测函数固定在选定特征的几个值上,并在其他特征上取平均值。

局部相关图可以表示目标与特征之间的关系是线性的、单调的还是更复杂的。例如,应用于线性回归模型,部分相关图总是显示线性关系。

在实践中,特征集合通常只包含一个特征或最多包含两个特征,因为一个特征产生2D图,两个特征产生3D图。除此之外的一切都相当棘手。即使是2D纸张或显示器上的3D也已经颇具挑战性。


部分依赖函数定义为: 

截图1

其中XS是部分相关函数需要绘制的特征,XC是机器学习模型F中使用的其他特征。通常情况下,S集中只有一两个特征,S中的特征是我们想知道的对预测的影响。特征向量S和C的总和构成总特征空间X。部分依赖通过对机器学习模型输出的分布特性集C边缘化,所以函数显示了XS我们感兴趣的特性之间的关系,预测结果。通过边缘化其他特性,我们得到一个函数,它只依赖于S中的特性,与其他特性的交互。

截图2

部分函数f来通过计算训练数据的平均值得到,也称为蒙特卡罗方法。

依赖函数告诉我们对于给定的xS值,预测的平均边际效应是多少。在这个公式中,xC(i)是数据集中我们不感兴趣的特征的实际特征值,n是数据集中实例的数量。PDP的一个假设是,C中的特征与s中的特征不相关。如果违反这个假设,部分依赖图的平均值将包括非常不可能甚至不可能的数据点(见缺点)。

目前为止,我们只考虑了数值特征。对于分类特征,部分依赖关系是很容易计算的。对于每个类别,我们通过强制所有数据实例具有相同的类别来获得PDP估计。

Examples:

让我们回到回归的例子,在这个例子中,我们预测每天将租赁的自行车的数量。我们首先在数据集上建立机器学习模型,然后分析部分依赖关系。在这种情况下,我们拟合了一个随机森林来预测自行车的数量,并使用部分依赖图来可视化模型所学到的关系。天气特征对预测的自行车数量的影响:


自行车计数预测模型与不同天气测量(温度、湿度、风速)的部分依赖关系图。最大的区别在于温度:平均来说,自行车租赁的次数越多,温度越高,直到20摄氏度,温度越高,自行车租赁的次数也就越多。x轴上的标记表示数据中特征的分布。

对于温暖(但不太热)的天气,该模型预测平均自行车数量较高。当湿度达到60%以上时,潜在的骑行者在骑行过程中受到越来越多的限制。此外,风力越大,人们就越不喜欢骑自行车,这是有道理的。有趣的是,预测的自行车数量并没有在每小时25到35公里的风速之间下降,只是没有那么多的训练数据,所以我们不能对其效果有信心。至少凭直觉,我认为自行车的数量会随着风速的增加而下降,尤其是在风速非常高的时候。

为了说明一个带有分类特征的部分依赖关系图,我们检验了季节特征对预测自行车租赁的影响。


自行车数量预测模型和季节的部分依赖图。出人意料的是,所有的季节都显示出同样的效果,只有在春季,模型预测自行车租赁会减少。

我们也计算子宫颈癌分类的部分依赖关系。这一次,我们随机选取了一个森林来预测女性是否患有宫颈癌,并给出了一些风险因素。在此模型下,我们计算和可视化了癌症概率对不同特征的部分依赖关系:

使用激素避孕药的癌症概率与危险因素、年龄和年岁的部分依赖关系图。对于年龄特征,部分依赖图显示,平均来说,癌症的概率一直到40岁,之后会增加。50岁以后数据点的稀疏性说明模型在50岁以上没有多少数据点可以学习。使用激素避孕药的时间越长,十年后患癌症的风险越大。但同样,该地区的数据点并不多,这意味着我们可能无法依靠机器学习模型预测10年使用避孕药的

我们还可以同时可视化两个特征之间的部分依赖关系:

肿瘤发生概率的部分依赖图与年龄、妊娠次数的交互作用。图中显示,无论怀孕次数如何,患癌症的几率在45岁时都会增加。一个有趣的相互作用发生在25岁以下:与没有或两次以上怀孕的女性相比,怀孕1或2次的年轻女性患癌症的风险更低。该模型预测了1 - 2次怀孕对癌症的一种保护作用。但要小心得出结论:这可能只是一种相关性,而不是因果关系!癌症的风险和怀孕的次数可能是由另一个年轻女性不同的、无法衡量的因素造成的。

OK,从这些案例可以明白部分依赖图是干什么的了,我觉得更多是用在数据分析上啊。那为什么可以用这个部分依赖图来给机器学习模型做检测?

这个我觉得明天要看下具体这方面的论文是怎么做的。

我的博客:机器学习的可视化——部分依赖图

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容