基础概念:careful consideration of what is desired from data science results(仔细思考下想从数据分析结果中得到什么);expected value as a key evaluation framework(关键评估框架的期望结果是什么);consideration of appropriate comparative baselines(思考如何找到恰当的比较基准线).
exemplary techniques:various evaluation metrics(多样评估指标);estimating costs and benefits(评估成本和收益);calculating expected profit(计算预期收获);creating baseline methods for comparison(为对比而创造比较基准线的方法).
商业模型的数据价值经常会被忽略,但是商业问题之间的差异都很大,很难有一个统一的判别方法写在本书中,但本书会讨论一些尽量通用的判定方法和框架。
Evaluating Classifiers(分类器评估)
在第五章里面,对于分类模型,描述了一个使用测试集来判定模型精度的方式。
sidebar:bad positive and harmless negatives
这里使用了医学疾病诊断的阳性(positive)和阴性(negative)的区分来说明positive和negative并没有绝对的好和坏的辨别。
Plain Accuracy and Its Problems(简单精确度及其问题)
上式就是准确度的衡量标准,即做出的正确决策的比率。
通过这个公式来得到分类器模型的准确率是简单的,因为结果只是一个数值,但是因为过于简单,所以会出现很多问题,我们通过混淆矩阵(confusion matrix)来发现这些问题。
The Confusion Matrix(混淆矩阵)
为了合理地评价一个分类器,首先要了解分类混淆(class confusion)和混淆矩阵(confusion matrix)的概念。
混淆矩阵就是一个 n*n 的矩阵,n是分类器的类别总数,列元素表示元素的实际分类,行元素表示元素在分类器中的预测分类。这里以一个简单的2*2混淆矩阵为例,如下图:
列标:p(positive)和n(negative)是元素的实际分类结果;
行标:Y(yes)和N(no)是分类器的预测结果;
矩形区域中填写元素个数,从而得到每种结果组合下的元素数,p-Y和n-N是正确分类结果的元素,其他区域的是错误分类结果的元素。
Problems with Unbalanced Classes(不平衡分类的问题)
根据一个例子来进行说明,有时候在分类问题中,两种类别的分布比例是999:1也就是分类到多数类的时候,有99.9%的正确率,这个时候容易得到一个策略,那就是无脑将归类指向那个99.9%的类别,这时就有99.9%的正确率,这种状态是不合理的,但这种状态在实际应用中是经常遇到的。
以电信运营商携号转网问题(cellular-churn)为例,A分析师得到一个80%准确的结论,而B分析师得到一个64%准确的结论,A得到的模型比B要好吗?不一定,基于一个10%左右用户会转网的基准概率,在数据中完全单项归类到不转网,就能达到90%左右的准确度。
所以衡量模型的标准不能是准确度。
下面对两个churn的模型进行对比,如下图:
上图中的样本空间是平衡后的样本空间,即50%(500人)的churn和50%(500人)的not churn,但是将这个模型应用到未进行平衡的样本范围时,模型A的准确率降低到64%,模型B增加到96%,这样其实也不能通过准确率来对比出哪个模型更优。
Problems with Unequal Costs and Benefits(成本与收益不对等的问题)
另一个根据模型的预测准确度来评判模型的问题是,模型准确度并没有将预测错误的情形进行区分(false positive and false negative errors),而是仅做简单的数量加总,但实际情况中,这些预测错误的情形都是有较大差异的。
举例:一个没得癌症的人被诊断成了癌症,和一个癌症患者被诊断为没得癌症,两者的结果差异就很大,前者能活,后者会直接放弃治疗。
Generalizing Beyond Classification(超越分类的归纳)
这个小节主要讲为什么这个数据模型是有效的,这些指标怎么落实到要预测的结果上面。
A Key Analytical Framework:Expected Value(期望)
公式7-1,通常的期望计算公式如下:
公式中po是o发生的几率,vo是o发生时的数值。
Using Expected Value to Frame Classifier Use(使用期望来计算分类应用)
第一个案例是关于,使用历史数据对一个新消费者的期望消费额度进行预测,假设针对这个消费者已有输入向量x,这个消费者的响应概率是,收入模式是,推广到这个消费者,消费者被转化则赢单,未被转化则单纯增加成本(通常这个转化率都低的可怜,这里也涉及到行业经验的另一个点,对数值的判断,提前了解了这个常规值的话可以避免因小概率值而放弃推广或错误地去修改模型),那么收益公式如下:
是得到相应后的收益,是未得到响应时的收益(这里vnr等于0,因为这就是你发广告了但是人家没买)。
但是当算上营销成本时,vnr就可能是一个负值了,这样算更准确,当整体收益为正时,我们就给这个用户发广告,为负时就忽略这个客户。
Using Expected Value to Frame Classifier Evaluation(使用期望来计算分类评估-指测试模型)
在多种模型都可以分析同一个问题的时候,那么怎么衡量每种模型的表现如何?
图7-2解释:左上角通过dataset分成训练集和测试集,得到了模型和验证时左下角的混淆矩阵,把混淆矩阵的数值转化成右侧的每种情况的概率矩阵,在用概率矩阵的每种情况和这种情况下的成本(c)收益(b)矩阵对应相乘相加,得到最后的数学期望值。
Error rates
混淆矩阵的数值到比例的示例计算见下表:
(h=预测的数值,a=实际的数值,T=汇总的预测和实际的样本总数加和)计算结果如下:
Costs and benefits
在期望收益公式中,可以参考下图来对成本和收益进行划分:
在如图的成本收益矩阵中和算作收益(预测正确),和算作成本(预测错误)。
后续表述中,成本和收益讲统称为收益,只是成本的收益数值为负,记作。
使用上述的公式计算出的期望结果表述为下式:
下面对期望收益做一个变形,概率方面的一个基础规则如下式:
表示,(x,y)发生的概率等于y发生的概率乘以y发生的情况下,x发生的概率,通过这个公司对期望收益公式进行变式得到:
把和提公因子出来,就得到了最终的等式,如下:
等式7-2:
根据上面表7-5的混淆矩阵,可以得到如下的计算结果:
T=110,P=61,N=49,,,
再把表7-4的数值拿过来,合并表7-5的几率,利用等式7-2来运算,得到的期望收益数值是50.04美元。这表示如果我们用这个模型来评估用户并对模型判定为positive的用户发促销邮件,那么每个用户的期望利润是50美元。
2个陷阱:
1. 本书中在计算时把profit记作正值,cost记作负值,但是有时候可能计算一些东西把cost记作正值,例如计算最大成本,所以定好后请不要更换符号的含义;
2. 计算的时候要搞清楚正负号,当收益为正成本为负时,相加,都为正时,相减。
sidebar:other evaluation metrics(其他估值矩阵)
这个小节讲述对评估矩阵的一些延伸用法,先假定true positives,false positives,true negatives,false negatives分别是TP,FP,TN和FN。
当预测正确时,可以用TP/(TP+FN)和FN/(TP+FN)作为TP和FN发生的概率。
使用TP/(TP+FP)可以当做预测是positive时的预测准确率。
F-measure(F值)的公式如下:
f-measure是一种统计量,F-Measure又称为F-Score,F-Measure是Precision和Recall加权调和平均,是IR(信息检索)领域的常用的一个评价标准,常用于评价分类模型的好坏。
准确率(accuracy),精确率(Precision)和召回率(Recall) [2] 是信息检索,人工智能,和搜索引擎的设计中很重要的几个概念和指标。中文中这几个评价指标翻译各有不同,所以一般情况下推荐使用英文。
精确率(precision)的公式是:,它计算的是所有被检索到的item(TP+FP)中,"应该被检索到的item(TP)”占的比例。
召回率(recall)的公式是:,它计算的是所有检索到的item(TP)占所有"应该被检索到的item(TP+FN)"的比例。
positive predictive value(PPV阳性预测值)计算方式等同于上面的精确率(precision)。
准确率就是所有正确预测值除以总值的结果,如下:
Evaluation,Baseline Performance,and Implications for Investments in Data(估值,基准表现和投资中的数据应用)
baseline判断一个模型好与坏的对比标的,这里介绍几个帮我们得到baseline的通用方法。
在分类模型中,我们可以拿自己的模型和随机分类模型作对比,得到对比的结果,但对比随机模型得到优势太容易了,所以要找到一个相对随机模型更好的基线模型。
拿天气预报来做一个类比,天气预报如果要做得到,那么对明天天气的预测要有两个特征:1. 要比给明天预测和今天一样天气有更高的准确率;2. 要打败气候学,就是要比历史同期某地的预测结果更准确。
在分类模型中,一个好的基准线是majority classifier,就是base rate classifier,也就是拿到任何一个样本都做某种固定预测的一个分类器。即,使用已有模型和每个固定分类器(majority classifier)进行预测结果准确度的对比。
在回归模型中,一个好的基准线是平均值,就是拿预测值和平均值比较。
decision stump(单层决策树):使用一个条件对样本进行分类的决策树。
单层决策树的判断结果也可以被当做比较的baseline,其一个用途就是,当需要引入一个新的信息源(factor)时,通过某些样本数据进行比对,看看这个新的信息源和已有信息源的单层决策树准确度比对,来判断是否需要花成本来收集这个新的信息。
最终一个baseline的评判标准仍然要回归到这两个方面,股东认为有效的和有说服力的。
summary
本章结束。