数据少,模型复杂,过拟合
数据多,训练得好,过拟合
需要标准来平衡,除了常见的正则化,还有其他标准。
1、赤池信息准则(Akaike Information Criterion,AIC)
AIC由日本统计学家赤池弘次在1974年提出,它建立在熵的概念上,提供了权衡估计模型复杂度和拟合数据优良性的标准。
通常情况下,AIC = 2k-2ln(L)
一组模型中选择最佳模型时,通常选择AIC最小的模型。
k是模型参数个数,L是似然函数。当两个模型之间存在较大差异时,模型差异主要体现在L;当模型相近时,模型差异主要体现在参数个数上。
一般而言,当模型复杂度提高(k增大)时,似然函数L也会增大,从而使AIC变小,但是k过大时,似然函数增速减缓,导致AIC增大,模型过于复杂容易造成过拟合现象。即模型参数为惩罚项,控制模型复杂程度在合理范围内。
2、贝叶斯信息准则(Bayesian Information Criterion,BIC)
通常情况下,BIC = k*ln(n) -2ln(L)
k为模型参数个数,n为样本数量,L为似然函数。BIC的惩罚项比AIC的大,考虑了样本数量,可以有效防止因样本量大而导致的过拟合。其次,BIC能够防止n较少时,k过高。
R的实现:
AIC:
packages:My.stepwise、AICcmodavg
第二个包比较复杂,可以自定义模型。
第一个包比较简单,但内置了生存分析:My.stepwise.coxph(Time,Status,variable.list,data)