预测不易,预测未来更不易。 ---Yogi Berra
2.1 统计模型
建模变量:
数学表达式
输入变量(input variable), 又称预测变量(predictor)、自变量(independent)、属性(feature)
输出变量(output variable),又称响应变量(response)、因变量(dependent)
2.1.1 Why Estimate f?为什么要估计f
- 预测(prediction)
- 推断(inference)
是自变量变化时,y到底怎样变化,发生多大变化。
2.1.2 如何估计f
- 参数方法-假设具体模型,然后训练数据,求出参数。(一般方法:光滑模型拟合很多不同的形式的函数 f,缺点:选定的模型并非与真正的 f 在形式上是一致的。)
最小二乘法估计线性回归 - 非参数方法 -追求接近数据点的估计,估计函数在去粗和光滑处理后极可能与更多的数据接近(优点:不限定 f 的具体形式,于是在更大范围里选择更适宜 f 形状的估计,缺点:*无法将估计 f 的问题简化到对少数参数的估计,需要大量的观测数据,拟合程度更强的模型需要更多的参数估计,复杂的模型容易导致 过拟合)
2.1.3 预测精度和模型解释性的权衡
建模的宗旨,如果是为了推断,那么采用结构限定的参数方法构建的模型解释性强,这种运用简单又相对光滑的统计学习方法具有明显优势。解释性与预测精度
2.2 评价模型精度
There is no free lunch in statistics
在统计学中没有免房的午餐
没有任何一种方法能在各种数据集里完胜其他所有方法,这也是统计学最有魅力的地方
2.2.1 Measuring the Quality of Fit 拟合效果
均方误差MSE
均方误差公式
测试均方差公式
例1
衡量样条曲线的光滑滑程度是由自由度(degree of freedom), 自由度越大,代表对数据的拟合程度越大, (自由度大小:线性回归< 蓝色曲线< 绿色光滑曲线,限定性强弱:线性回归> 蓝色曲线> 绿色光滑曲线)。 当光滑程度(flexibility)增大时,训练均值方差总是单调递减,绿色曲线是最小的training MSE,因为它是最大的光滑度。同时testing MSE 总体上是一个“ U”形态。
结论:当模型的光滑度增加,训练均方误差总是递减,测试均方误差不一定减少。
过拟合:当训练出来的模型训练误差较小而测试误差较大,则数据被过拟合。其存在的意义在于降低模型的平滑程度,可以减小测试均方误差。
例2中真实函数是接近线性的(黑色),接近于真实函数(蓝色),以及光环程度较大(绿色),显然训练均差仍然随着自由度增加而递减,而测试均差只是先稍微递减然后大幅度的递增,结论就是最小二乘的拟合的线性模型比高光滑的绿色线更适合测试样本。
例2
例3
例3中,真实函数是非线性的,无论测试还是训练的均值误差都是快速递减,然后缓慢增加。
2.2.2 The Bias-Variance Trade-Off 偏差-方差权衡
测试均方误差的“U”型曲线和训练均方误差的递减曲线表明,统计方法在计算方面存在两种博弈。
分析概念
分析图
规律:一般来说光滑度较高的统计模型有较高的方差而较小的误差。
在选择一个模型时,方差和偏差要同时要小,然而增加方差也不一定就是减少偏差,这就有一个权衡的问题。
2.2.3 The Classification Setting 分类模型
-
训练错误率(training error)训练错误率公式
- 测试错误率(test error)测试错误率公式
概率最大的最合理
虚线为贝叶斯决策边界
贝叶斯错误率
由于很难知道给定X后Y的条件概率,K最近邻(KNN)分类器就是用来计算这总条件概率的,其核心在于k的取值,也就是模型的光滑性
K = 3K = 10K =1 与 K = 100