什么叫拟合?这是一个复杂的数学问题,通俗地说,拟合是一门预测趋势的学问。比如你做了一个婚姻幸福指数调查,一共访问了10万个家庭,这10万个家庭里,大多数都很和睦,只有两家存在家暴行为。当然,这两个特例不足以说明问题,被你排除在外。通过分析剩下的9万多个家庭,你发现,结婚后的前10年,幸福指数是逐年递减的,但递减的速度很微弱,于是你预测,未来的十年,幸福指数还会再出现微弱的下跌,当然,总体还是幸福的。这个通过过去经验来推测未来的过程,就叫做拟合。
但是,你不甘心只预测一个大概的趋势,你想要精准知道每个家庭未来十年的幸福指数。于是,你开始深究这10万个家庭的具体情况,每个样本对你来说都非常珍贵,之前被排除在外的那两个存在家暴的家庭,也被你计算在内。你针对这10万个家庭,绘制出了过去10年精确的幸福指数波动曲线,但当你把这条曲线输入电脑,想预测未来的幸福指数曲线时,你会发现,完全不准。问题就出在那两个之前被排除的样本。因为家暴原因,这两个家庭的幸福指数,在整体曲线上会呈现剧烈的波动,当曲线延长时,波动也被放大。这种对细节过分考量,导致整体趋势出现偏差的情况,就叫做过度拟合。
就像一辆汽车,在出发的时候,只要方向偏了一点点,后面就会越跑越偏。