8. 可视化模型的表现

Fundamental concepts:visualization of model performance under various kinds of uncertainty(在诸多不确定因素下观察模型表现);further consideration of what is desired from data mining results(深入考虑我们要从数据分析结果中得到什么).

Exemplary techniques:profit curves(利润曲线);cumulative response curves(累积响应曲线);lift curves(lift曲线);ROC curves(ROC曲线)。

图像比数字更能让老板开心,所以这个章节一起来看看怎么样用图像表现模型。


Ranking Instead of Classifying(用排名代替分类) 

图8-1 通过得分和阈值来罗列所有的样本。横线就是阈值,通过这些阈值进行划分,阈值上方的就是positives,下方是negatives。

可以看到随着阈值下降,每个元素的混淆矩阵中的数字都在从N行向Y行运送,每个阈值都是一个不同的使用混淆矩阵来区分样本的分类器。


Profit Curves(利润曲线)

图8-2 三个分类器下的利润曲线。随着实施用户的增加的利润结果。

图8-2里面有 三个模型 ,推广一个新客户的成本是¥5,转化成功就赚¥9,利润是¥4,然后把所有的用户按照这三个模型分别把接受度从高到低排列,当推广的用户逐渐增多时的利润曲线就是图8-2中的结果。

图8-2中最左侧和最右侧4条线是在一个点上的,说明在极端情况时(0推广和全推广)的情况下利润是一致的,中间的起伏不同是因为不同的模型下,对不同的用户进行了不一样的评分和排列,实际上每个用户的混淆矩阵在跨模型时仍然是保持一致的。

从图8-2可以发现,分类器2可以得到最大的利润值¥200,当预算不限的情况下,最好选择分类器2,这样可以得到¥200利润,但需要推广50个最可能转化的用户,推广成本也最高。

当你被预算束缚的时候,比如你有一共100000用户,和¥40000推广经费,单位推广成本¥5,那么可以推广8000个用户,此时就需要在图8-2的8%的位置找到利润最高的分类器,此时就需要选择分类器1得到最大利润。


ROC Graphs and Curves(ROC图和曲线)

Receiver Operating Characteristics(ROC)graph:接受者操作特征曲线。

ROC曲线就是一个二维图标,false positive比率是x轴,true positive比率是y轴。

图8-3 ROC空间和5种分类器(A-E)和他们的表现

ROC图表有以下几个特殊点:

(0,0)从来不做positive归类的一个分类器;

(1,1)全都归类为positive的分类器;

(0,1)完美的分类器,所有预测均准确无误;

(0,0)到(1,1)的连线表示随机分类。

图8-4 ROC空间中的每一个点都表示了一个混淆矩阵。
图8-5 从测试集来构建ROC曲线的过程,从底部(全分类为N)开始,向上逐个投射,逐渐增加了预测为Y的样本的数量,每个混淆矩阵都表示了一个ROC空间中的(FP,TP)数对。

The Area Under the ROC Curves(AUC)(ROC曲线下方的区域-AUC)

AUC等同于Mann-Whitney-Wilcoxon measure(Mann-Whitney-Wilcoxon检验)或者Gini Coefficient(基尼系数),两者的相同点是都计算了,随机挑选一个positive样本,它的排名是在一个随机挑选的negative样本的上方的。

AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。(以上描述来自百度百科)


Cumulative Response and Lift Curves(累积反应和升力曲线)

这个小节考虑到视觉化是需要让steakholder懂数据结果,从而使用更直观的一些图形来表述数据分析结果,而非使用更全面的ROC曲线。

cumulative response curve(累积响应曲线)和ROC曲线紧密相关。但是改变了x轴和y轴的含义,cumulative response curves的y轴是TP(tp rate,y axis)当做y轴,把受测样本的比例当做x周,如下图所示:

图8-6 4个样例分类器,和他们的累积响应曲线

横轴表示测试的样本比例,纵轴表示被正确判断为positive的样本比例,对角线(图8-6中的实线)的含义是固定分类为positive时的分类器表现(即当测定样本比例为20%时,正确分类到positive的比率应该也是20%),故一切在对角线上方的分类器曲线,都是对随机判断提供了一些更有利信息的模型(即,在测定样本比例为20%时,正确判断positive的比例是高于20%的)。

小字部分:有时候累积响应曲线也被叫做升力曲线,因为可以通过这个线相比随机模型提升了多少来判断这个分类器模型的好坏,但本书中仍叫它累积响应曲线,因为升力曲线(lift curve)有其他的用途。

lift curves(升力曲线)的定义是在cumulative response curve的每一个x点上,把Y值转化为累计相应曲线的Y值除以对角线(y=x)的商,所以在升力曲线中,这个对角线变成了一个y=1的水平横线,如下图:

图8-7 4个图8-6中的分类器(A-D)和他们各自的升力曲线(lift curves)

lift curves和cumulative response curves使用的时候要注意,如果positive元素的占比未知或在测试数据中未被精确表述时,不要使用这两个曲线。这两个曲线的使用有一个假设的前提条件是测试集中的positive占比和全量样本中的占比是一致的。


Example:Performance Analytics for Churn Modeling(churn建模的模型表现分析)

这里使用电信公司数据进行了4个方法的建模及预测精度的计算,如下2个图:

表8-1 4个分类器基于churn问题的模型训练精确度结果
表8-2 把模型进行了10-fold的交叉验证后,训练得到的4个分类器算法下的精确度,以及AUC值
图8-8 基于churn数据的决策树模型拟合曲线,训练集逐渐增大时,测试集减小,导致过拟合显现逐渐显著,上方的4个模型中,均存在过拟合现象(决策树、逻辑回归、KNN、朴素贝叶斯)

从上面表格可以看出,朴素贝叶斯模型得到了最低准确度但是有最大的AUC,将朴素贝叶斯和KNN的混淆矩阵进行对比如下2图:

朴素贝叶斯模型的混淆矩阵(基于churn数据)
KNN模型的混淆矩阵(基于churn数据)

可以看到K-NN模型几乎不会把要素分类到Y当中,换个说法就是,K-NN模型的表现和基础概率分类器差不多,总是单向地向N的情况下分类。朴素贝叶斯虽然准确率较低,但是判断出了更多的churners。

图8-9 几个分类器(决策树、逻辑回归、KNN、朴素贝叶斯)在5-fold交叉验证下建模的ROC曲线,基于churn问题的数据

ROC曲线有较好的一些技术特征,但是曲度这个指标较难直观看出来,所以将其转化为升力曲线(lift curve)如下图:

图8-10 基于churn数据的升力曲线

从图8-10中可以看出,当测试样本在25%以下时,决策树的效果更好,超过25%时朴素贝叶斯效果更好,另外两个算法的建模都表现较差。

所以如果只需要针对前25%或更少的用户进行针对性宣传时,那么使用决策树会更好,否则建议使用朴素贝叶斯的分类方法。

知识点:combining classifiers(分类器合并)

在这里的问题上并不能简单合并决策树和NB,因为两个模型对样本的排序不同,不能采取前25%使用tree,后面的使用NB的方式,但是模型的确可以通过合并来提高表现,这个方法叫ensembles(合奏),将在308页介绍。

接下来把实际问题中的profit和cost也加进来,假设TP得到30收入,成本是3,单件的profit就是27。利润曲线如下图8-11:

图8-11 基于churn数据,4个分类器的利润曲线,最高利润是使用决策树分类器,在针对top20%的用户推广的情况下得到的

修改收入为39,成本维持是3,此时每个TP提供的利润就是36,这种情况下的利润曲线发生了较大变化,如下图8-12:

图8-12 基于churn数据的36收入3成本(12-to-1)利润曲线(与图8-11对比)

基于上面的这个例子,在实际应用模型时,要考虑到使用的算法、精度、AUC,以及最后实际的profit的具体数值,这样才能在测算时得到一个最接近实际的预测,成本收入的量变会导致算法方面的质变。


summary

这里有1推荐论文:

approximate statistical tests for comparing supervised classification learning algorithms(by Thomas Dietterich's 1998)

和1推荐书目:

evaluating learning algorithms:A Classification Perspective(Japkowicz & Shah,2011)

本章结束

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343