这一节主要讲了overfitting, 主要来源自noise, 而noise来源主要有二: 其一是数据本身带有noise, 其二是模型本身的hypothesis set在拟合复杂的target function的noise(这部分应该是模型设计所导致的,因为高阶不能拟合高阶, 所以设计的高阶能力有限吧, 不能达到f)
-
illustration。解释了什么是过拟合, 如用4阶的line去拟合5个带noise的点, Ein = 0, 但是Eout就很大了。 Overfitting有两层含义: 一层是针对两个模型而言, 如3阶的模型与4阶的模型比较(4阶的过拟合); 另外一层含义是针对同个模型而言,如在神经网络中, 训练过度也会导致过拟合, 并且泛化误差大, 就是Ein在不断下降, 而Eout却不,一个技巧是使用early stopping。
-
下面是对overfitting下定义。 简单来说, 就是去拟合noise了。
case study。 为了说明noise的来源, 做了两个case: 一个的数据样本是10阶的数据点+noise; 另外一个是50阶的数据点(没有noise)。我们用了两个模型来拟合它: 一个是2阶的模型, 另外一个是10阶的模型。 按理来说, 应该有这样的感觉, 我们已经知道了是10阶的模型产生的数据, 那么我们用10阶去拟合, 应该结果会很好吧; 另外一个是50阶的数据, 案例说10阶至少会比2阶的好吧。 而事实却不是这样的。我们看到10阶的Ein都非常小, 但是Eout却十分的大!
-
再次从Ein和Eout的关系来看拟合的例子1. H2的模型能力比H10的模型能力差, 所以Expected Error肯定大些。 随着数据点增多, Ein变多, Eout一开始比较大, 然后逐渐降低逼近Ein, 但是会保持比Ein高的水平。 H10的分析如之前。
-
对于例子2来说, 真的是没有noise吗? 虽然输入点x似乎没有noise。
-
case1. 为了做分析,我们有如下的notation, \sigma^2是noise的水平(case 1), Qf目标函数的复杂度(case 2); 并且, 我们比较Eout(10) - Eout(2)。
Result。我们将结果通过color plot的形式呈现出来, 左图是X方差的影响, 右图是target function复杂度的影响。 \sigma^2称为随机noise, 因为它们是无法衡量的并且随数据集固定了,是所有的模型都要面临的; Qf产生的误差称之为确定性noise, 因为当你确定了一个模型, 这个确定性noise也就确定了(稍后解释)。 我们看到, 随着数据点N的增多, overfitting在减小, 而随着随机noise的增多, overfitting在增大(我们有更大的可能性是在拟合noise?); 而随着确定性noise的增大, overfitting的问题也在增大(这是模型本身确定的了)。
-
接下来详细解释确定性noise。 确定性noise定义为我们最终确定的h*(x)与f(x)之间的差异。 之所以称为noise可以这样理解, 你让一个只懂得实数的小男孩给你列举出一个复数的例子, 这显然超出了它的能力, 于是他竭尽全力也只能说1.32323(等等), 复数对它来说就是noise, 强人所难的noise。 确定性noise与随机noise主要有两个区别: 一是它依赖于假设空间, 假设空间的能力决定了确定性noise; 而是一旦x确定, 那么确定性noise也就确定了。 对于随机noise来说,它对所有的假设空间来说都是一样的, 另外是对于一个确定的x, 它也可能是不一样的。 那么, 如何确定确定性noise呢, 答案是无法确定, 但是有一点是可以肯定的是对于有限的数据点, H是在拟合noise的。
-
接下来从bias variance角度来解释noise。 推导过程如lecture 8. 最终我们看到Eout = var + 确定性误差(模型能有多逼近f(x)) + 随机误差(x本身)。
-
如何解决overfitting呢, 一个是regularization(刹车), 一个是validation(守住底线), 这是接下来两节的主题。