模型评估与选择(读书笔记)

机器学习中,无论是新建的学习模型还是对现有模型的优化,都需要对模型进行评估,并选择一个模型应用于实际问题中。

因本人非理科学生,故而本文未涉及到复杂公式的推理过程,仅简单的阐述一些原理上的概念,方便非理科学习理解机器学习的模型评估与选择,也当是自己看书做的笔记,方便后续回顾。

机器学习说白了是利用历史数据,基于一定的学习算法让计算机自己学习或者训练,得到一个模型的过程。我们可以用这个模型进行预测。比如预测用户的购买行为,或者阅读行为,从而对用户进行推荐或者排序。(非理科生的视角,有偏差的望容忍或者指出)。

机器学习得到一个或者多个模型时,我们怎么对模型进行评估和选择呢?

1、机器学习的评估方法

一般来说模型的评估有以下几种方法:留出法、交叉验证法、自助法。


图片发自简书App

作为非算法工程师,个人认为大概理解含义就行啦,本人曾经作为搜索排序的pm,使用到机器学习的模型进行排序,我其实不需要知道模型训练和评估的实际操作,仅需要了解评估的方法和结果即可,了解评估方法可大概知道评估结果会存在哪些不足。

2、模型的评价标准

评价标准也有很多,不同评价标准适用的场景不同,作为非理科生理解原理和概念就行,对于具体推到过程和实现过程交给技术大牛们即可。本文简单介绍几组评价标准。

(1)错误率与精度

一般的二分类和多分类任务中,常用的评估指标为错误率与精度,其中错误率E=分类错误的样本数/总样本数,而精度ACC=分类正确的样本数/总样本数=1-错误率。

(2)查准率、查全率、F1

信息检索或者web搜索中,需要评估“检索的信息中有多少比例是用户感兴趣的“,或者“”用户感兴趣的信息有多少被检索出来了“的问题时,错误率和精度则不能满足评估需求,故而用查准率和查全率来评估。

查准率P=TP/(TP+FP)=实际是正样本预测仍然为正样本的样本量/预测为正样本的样本量,含义即:预测出来的正样本中有多少在真实情况中也是正样本。

查全率R=TP/(TP+FN)=实际是正样本预测仍然为正样本的样本量/实际总的正样本量。含义即:真实情况的正样本中有多少被预测为正样本。


图片发自简书App

排序案例中,用机器学习的结果进行排序,排序在前面的被认为“最有可能“是正例的样本,相反排在后面的被认为“最有可能“是反例的样本,但是具体哪个是正样本没有唯一的标准。此时为了能对比不同模型的优劣,可以按顺序逐个把样本作为正样本进行预测,则每次都可计算出当时的查准率和查全率,例如先把排在第一个位置的认为是正例,其他为反例,计算查准率和查全率(P1,R1 ),然后再把排在前两个位置的认为是正例,其他为反例,计算查准率和查全率(P2,R2 ).....以此类推,可得到多个查准率和查全率(Pi,Ri),把查准率和查全率绘制在坐标轴上,可得到查准率--查全率曲线,简称P-R曲线,如下图:


图片发自简书App


不同的模型对应不同的P-R曲线,如果某个模型的P-R曲线完全包住另外一个模型的P-R曲线,则说明该模型比另外一个模型的性能更好,如图中A、B都优于C,而A和B有交叉难以判断谁优谁劣,通常的做法下是取平衡点对比,A的平衡点大于B,则说明A优于B,平衡点即查准率=查全率的点。

F1或者Fβ:直接对比平衡点,过于简单,有时候也用Fβ来度量模型优劣,一般的β>0的数值,其中β=1表示标准的F1,β>1时查全率影响更大,β<1时查准率影响更大。

Fβ=((1+β^2)×P×R)/(β^2×P+R)

(3)ROC与AUC

ROC曲线与P_R曲线类似,不同的地方在于ROC曲线的纵轴是“真正例率”简称TPR,横轴是“假正例率”简称FPR。

TPR=TP/(TP+FN)=实际是正样本预测仍然为正样本的样本量/真实情况中正样本数,含义即:真实情况的正样本中有多少仍被预测为正样本。

FPR=FP/(FP+TN)=实际是反样本预测仍然为反样本的样本量/真实情况中的反样本数。含义即:真实情况的反样本中有多少仍被预测为反样本。


图片发自简书App

与类似P_R曲线,在使用ROC曲线时,区分正例和反例的每个区分点都可计算出一个与之对应的点(FPR,TPR),很多个(FPR,TPR)点可绘制成一条曲线,称为ROC曲线。


图片发自简书App

模型评估时,如果一个模型C的ROC曲线完全包住另外一个模型D的ROC曲线,则说明模型C优于模型D,如果模型C和模型D有交叉,则用两个模型ROC曲线下的面积AUC值来比较,如果模型C的AUC值大于模型D的AUC值,则说明模型C优于模型D。

至于AUC的计算公式,感兴趣的可自己找相关数据查看。

(4)代价敏感错误率与代价曲线

实际应用中,有时候不同类型的错误所造成的后果不同,如医疗诊断中,把健康人诊断为患者,把患者诊断为健康人,前者只是增加进一步检查的麻烦和费用,但是可能后者可能错失治疗的最佳时间。这种非均等代价则不能用查全率、查准率或者ROC曲线来评估模型。此时可考虑用代价敏感错误率与代价曲线来评估模型。

以二分类问题举例说明代价敏感错误率和代价曲线。


图片发自简书App

若将第0类判别为第1类所造成的损失更大,则cost01>cost10,反之亦然,损失程度相差越大,cost01和cost10的值差别越大。

均等代价下,错误率直接计算错误次数,在非均等代价下,希望是总代价最小,故而计算的是代价敏感 的错误率,公式略过。

代价曲线的横轴是取值为【0,1】的正例概率代价:p是样例为正例的概率


图片发自简书App

代价曲线的纵轴是取值为【0,1】的归一化代价:p是样例为正例的概率

图片发自简书App

其中,FPR计算通ROC曲线中的FPR公式,即假正例率,FNR=1-TPR(TPR是ROC曲线中的TPR)。

ROC曲线上的每一个点,都能在代价平面上绘制一条从点(0,FPR)到点(1,FNR)的线段,线段下的面积表示该条件下的期望总代价,取ROC的每个点转化为代价平面上的一条线段,取所有线段的下界,围城的面积即为该模型的期望总代价。如下图。

不同模型期望总代价相比,期望总代价较小的模型更优。


图片发自简书App


3、小结

以上这些评估的方法基本都是技术上使用的判断标准,作为非技术人员,了解原理,能够理解模型评估的结果。但是对评估结果需要抱有怀疑的态度,一方面可结合业务的特点,制定业务指标对模型进行评估;另一方面,新的模型上线后,最好是进行AB-test后,再依据测试结果选择应用哪个模型。实际应用中,我们曾经遇到的问题是评估时模型C的AUC值比模型D高,但是实际上线后,模型C的表现并不理想。尤其是当模型C、D的AUC值都比较大时,上线后模型C和D谁表现更好,这个不确定性更高。

总之,在进行模型评估时,作为为技术人员,需要理解模型技术上的评估含义,同时需要结合具体业务的实际情况,制定业务特征上的评估标准,同时注重分析模型表现差异的业务原因。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容