过拟合
特征多了,模型对当前的样本高度拟合,但一旦换一组样本,会出现极大的偏差。
我们如何解决过拟合的问题呢?
- 减少特征(人为选择或者利用算法模型)
- 正则化
代价函数
脑洞
不减少特征,又希望特征对结果影响越小越好,那么只能在优化时将特征的系数纳入考虑,特征系数为0的越多越好,那么式子里面虽然特征还是那么多,但是实际上结果不受特征的影响。
比如说xk这个特征我觉得不那么重要,其系数是θk,那么我在代价函数后面就加上1000θk^2,这样,在最小化代价函数的时候,就对θk的大小做了约束。
正则化
对所有的特征都做同等约束
如果λ过大了,那么可能导致欠拟合,所以λ值的选取很重要;λ小了,可能效果不明显,还是出现过拟合。