参数调优和模型选择

问题:对模型正则化后,使用对于训练集而言泛化误差(generalization error)最小的最优超参数值。但将模型应用在测试集时,误差依旧很大。

原因:模型和超参数只适用于“部分集”,对新数据拟合效果不好。

解决方法——holdout validation:

在训练集、测试集的基础上,对训练集分割出验证集。对删减后的训练集进行多个模型的训练和调优,选择应用在验证集上效果最好的模型。然后再采用该模型训练未删减的训练集。最好将训练好的模型用于测试集上并计算泛化误差。

潜在的问题:

a. 若验证集过小,则模型评估可能不精准,可能会因为误差选择了不合适的模型。

b. 若验证集过大,则训练集远小于原本未删减的训练集。可能因为训练集过小而造成选择模型时出现较大误差。

解决方法:使用交叉验证,使用多个小的验证集。在选择模型的过程中,评估每一个候选模型对每一个验证集的效果,最后根据均值选择模型。(缺点:训练时间翻倍)


(小tip)泛化误差:模型在新样本上的误差。在测试集上测试产生的误差也可作为泛化误差的评估。若在训练集上的误差小,而泛化误差很大,说明模型过拟合。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容