统计学习导论 ·第2章·Statistical Learning

预测不易,预测未来更不易。 ---Yogi Berra

2.1 统计模型

建模变量:

数学表达式


输入变量(input variable), 又称预测变量(predictor)、自变量(independent)、属性(feature)
输出变量(output variable),又称响应变量(response)、因变量(dependent)

2.1.1 Why Estimate f?为什么要估计f

  • 预测(prediction
    f 是黑箱(black box)该黑箱能够提供准确预测Y,但是不追求f的确切形式,比如病人服用某种药物是否有后遗症、股票的涨跌等
  • 推断(inference
    是自变量变化时,y到底怎样变化,发生多大变化。

2.1.2 如何估计f

  • 参数方法-假设具体模型,然后训练数据,求出参数。(一般方法:光滑模型拟合很多不同的形式的函数 f,缺点:选定的模型并非与真正的 f 在形式上是一致的。)
    最小二乘法估计线性回归
  • 非参数方法 -追求接近数据点的估计,估计函数在去粗和光滑处理后极可能与更多的数据接近(优点:不限定 f 的具体形式,于是在更大范围里选择更适宜 f 形状的估计,缺点:*无法将估计 f 的问题简化到对少数参数的估计,需要大量的观测数据,拟合程度更强的模型需要更多的参数估计,复杂的模型容易导致 过拟合

2.1.3 预测精度和模型解释性的权衡

建模的宗旨,如果是为了推断,那么采用结构限定的参数方法构建的模型解释性强,这种运用简单又相对光滑的统计学习方法具有明显优势。
解释性与预测精度

2.2 评价模型精度

There is no free lunch in statistics
在统计学中没有免房的午餐

没有任何一种方法能在各种数据集里完胜其他所有方法,这也是统计学最有魅力的地方

2.2.1 Measuring the Quality of Fit 拟合效果

均方误差MSE

均方误差公式
计算训练样本,称为训练均方误差(training MSE), 计算测试样本称为测试均方误差(testing MSE), 通常我们并不关心这个模型在训练样本的表现,而真正的兴趣在于将模型用于测试数据获得怎样的预测精度。也就是说 ,需要一个方法选择模型,使得该模型的测试均值误差最小。一个误区就是,认为测试均值误差和训练样本误差之间的关系是总是正相关的,然而不一定。
测试均方差公式

例1
对于例1, 黑色为真实数据模型函数 f, 对于f的估计,线性回归(橙),两条光滑样条曲线(绿和蓝), 方块表示对于这3种方法的两种均值误差。
衡量样条曲线的光滑滑程度是由自由度(degree of freedom), 自由度越大,代表对数据的拟合程度越大, (自由度大小:线性回归< 蓝色曲线< 绿色光滑曲线,限定性强弱:线性回归> 蓝色曲线> 绿色光滑曲线)。 当光滑程度(flexibility)增大时,训练均值方差总是单调递减,绿色曲线是最小的training MSE,因为它是最大的光滑度。同时testing MSE 总体上是一个“ U”形态。

结论当模型的光滑度增加,训练均方误差总是递减,测试均方误差不一定减少。

过拟合当训练出来的模型训练误差较小而测试误差较大,则数据被过拟合。其存在的意义在于降低模型的平滑程度,可以减小测试均方误差

例2中真实函数是接近线性的(黑色),接近于真实函数(蓝色),以及光环程度较大(绿色),显然训练均差仍然随着自由度增加而递减,而测试均差只是先稍微递减然后大幅度的递增,结论就是最小二乘的拟合的线性模型比高光滑的绿色线更适合测试样本。

例2

例3

例3中,真实函数是非线性的,无论测试还是训练的均值误差都是快速递减,然后缓慢增加。

2.2.2 The Bias-Variance Trade-Off 偏差-方差权衡

测试均方误差的“U”型曲线和训练均方误差的递减曲线表明,统计方法在计算方面存在两种博弈。

分析概念
个人理解:比如用一把尺子去测量一个物品长度,方差代表不同的人去测量这个物品,真实长度客观存在,不同的人测得的长度可能不同,那么就存在和真实长度的差距,也就是衡量差距的变化的方差。而偏差就是有的人用钢尺,有的人用激光测距仪,有的人用手比划,最终我们认为激光笔来测量比较好,但是不管什么技术,总存在和真实长度的偏差

分析图

规律一般来说光滑度较高的统计模型有较高的方差而较小的误差。
在选择一个模型时,方差和偏差要同时要小然而增加方差也不一定就是减少偏差,这就有一个权衡的问题。

2.2.3 The Classification Setting 分类模型

  • 训练错误率(training error)
    训练错误率公式
  • 测试错误率(test error)
    测试错误率公式
    基于上式,test error存在最小值, 产生贝叶斯分类器(The Bayes Classifier)
    概率最大的最合理
    在一个二元分类中:Pr(Y =1|X = x0) > 0.5,表示贝叶斯分类器将观测类别预测为1,因此存在区分类别的线,即贝叶斯决策边界
    虚线为贝叶斯决策边界
    因为贝叶斯分类器总是选择概率最大的类,于是在X =x0出产生的最低的错误率,即贝叶斯错误率:
    贝叶斯错误率
    K-Nearest Neighbors K最邻近方法
    由于很难知道给定X后Y的条件概率,K最近邻(KNN)分类器就是用来计算这总条件概率的,其核心在于k的取值,也就是模型的光滑性
    K = 3
    K = 10
    K =1 与 K = 100
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,734评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,931评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,133评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,532评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,585评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,462评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,262评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,153评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,587评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,792评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,919评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,635评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,237评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,855评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,983评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,048评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,864评论 2 354

推荐阅读更多精彩内容