过度拟合

什么叫拟合?这是一个复杂的数学问题,通俗地说,拟合是一门预测趋势的学问。比如你做了一个婚姻幸福指数调查,一共访问了10万个家庭,这10万个家庭里,大多数都很和睦,只有两家存在家暴行为。当然,这两个特例不足以说明问题,被你排除在外。通过分析剩下的9万多个家庭,你发现,结婚后的前10年,幸福指数是逐年递减的,但递减的速度很微弱,于是你预测,未来的十年,幸福指数还会再出现微弱的下跌,当然,总体还是幸福的。这个通过过去经验来推测未来的过程,就叫做拟合

但是,你不甘心只预测一个大概的趋势,你想要精准知道每个家庭未来十年的幸福指数。于是,你开始深究这10万个家庭的具体情况,每个样本对你来说都非常珍贵,之前被排除在外的那两个存在家暴的家庭,也被你计算在内。你针对这10万个家庭,绘制出了过去10年精确的幸福指数波动曲线,但当你把这条曲线输入电脑,想预测未来的幸福指数曲线时,你会发现,完全不准。问题就出在那两个之前被排除的样本。因为家暴原因,这两个家庭的幸福指数,在整体曲线上会呈现剧烈的波动,当曲线延长时,波动也被放大。这种对细节过分考量,导致整体趋势出现偏差的情况,就叫做过度拟合

就像一辆汽车,在出发的时候,只要方向偏了一点点,后面就会越跑越偏。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容