我们知道,正则项通过控制参数来防止过拟合的,下面以L2正则为例,看看怎么选择lambda,以及和偏差和方差之间的关系。
首先需要做的事,就是选择出一些lambda的备选值,并且以2倍的速度进行增长选取。对于特定的lambda,极小化损失函数得到最优参数,再在验证集上观察验证损失。
加入我们选取了12个备选的lambda值,那么可以得到12组参数以及12个验证损失,我们比较这12个验证损失的值,找出最小的,就是最合适的lambda的值,然后再在测试集上测试。
下面来分析下随着lambda的变化,学习曲线的变化情况,当lambda很小的时候,最极端的是等于0,相当于没有正则项,那么很容易过拟合,而且模型偏复杂,这时候方差比较大,在训练集上表现很好,但是在验证集上表现并不是很好。但是当lambda很大的时候,那么这时候参数都很小,趋近于0,那么只有常数项,此时模型会有很大的偏差,那么训练误差和验证误差都很大。
但是当我们为模型选择合适的复杂度的时候,会得到一个验证误差的最优值,其实此时也是我们应该选择的lambda的值哦~~