西瓜书第二章-模型评估和选择

1.经验误差

错误率——是分类错误的样本数占样本总数的比例
经验误差——学习器预测的结果与实际真实结果之间的差异
训练误差——在训练集上预测的结果与训练集的真实结果的差异(经验误差)
泛化误差——在测试集上预测的误差
由于你不知道训练样本是什么样子的,所以我们现在能做到的就是尽量的减少训练误差,但是我们实际想要的是希望在测试样本中表现好的,为了达到这个目的,我们应该尽量的获取训练样本的潜在规律而不是训练样本的所有内容,这样,我们在遇到新样本时,利用这个潜在规律,就可以做出一个预测。例如:小聊子(相当于学习器)想给自己的朋友分个类别,如果,我秉着每个人都是独一无二的这样的政治教课书理论,好的,每一个人都是一个类,然而,这显然是不合理的,这就叫过拟合。若我秉着我的朋友都是善良的熊孩儿,好的,他们都是一个类,这就叫欠拟合。

一个overfitted模型记住太多training data的细节从而降低了generalization的能力。


看看这图~
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

友情链接更多精彩内容