奥卡姆剃刀在模型选择中的应用
在所有可能选择的模型中,能够很好地解释已知数据,并且十分简单才是最好的模型。
L0/L1/L2范数
L0范数是指参数向量中的非零元素的个数。
L1范数是指参数向量中的各个元素的绝对值之和。
L2范数是指参数向量中的个元素平方和之后求平方根。
泛化误差
就机器学习算法来说,其泛化误差可以分解为两部分:偏差(bias)和方差(variance)。偏差指的是算法的期望预测值与真实预测值之间的偏差程度,反应了模型本身的拟合能力。方差度量了同等大小的训练集的变动导致学习性能的变化,刻画了数据扰动所导致的影响。
当模型越复杂时,拟合的程度就越高,模型的训练偏差就越小。但此时如果换一组数据,可能模型的变化就会很大,即模型的方差很大。所以模型过于复杂的时候会导致过拟合。当模型越简单时,即使我们再换一种数据,最后得出的学习器和之前的学习器的差别就不那么大,模型的方差很小。但这种情况下,还是因为模型简单,所以偏差会很大。
GBDT
有同事说用GBDT做特征工程。原因如下:
GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。业界中,Facebook使用其来自动发现有效的特征、特征组合,来作为LR模型中的特征,以提高CTR(click-through rate prediction)的准确性。