Sklearn--Lasso模型选择

使用赤池信息量准则(AIC),贝叶斯信息准则(BIC)和交叉验证(CV)来选择Lasso模型的最优正则化参数alpha。
LassoLarsIC的结果依赖AIC/BIC准则。

基于信息准则的模型选择非常快,但是它依赖于对模型自由度的正确估计、大样本数据以及假设模型是正确的等等。数据实际是由这个模型产生的。当特征数大于样本数时,它们也会崩溃。

对于交叉验证,我们使用20折、2种算法计算Lasso路径:LassoCV坐标下降法(coordinate descent),LassoLarsCV使用最小角回归法Lars (least angle regression) 。这两种算法得到大致相同的结果。他们的不同来自于运算速度和数值错误的来源。

Lars计算路径解决方法只针对路径上的每一个kink,在只有很少的样本或特征的情况下,kinks也很少,Lars是非常高效的。并且Lars能计算全路径而不用设置任何目标参数。相反,坐标下降法是在事先指定的网格(使用默认值)计算路径点。在网格点的数量比kink数量少的情况下是高效的。如果特征的数量非常大并且有足够的样本来选择,这种策略是很有趣的。在数值误差方面,对于高度相关的变量,Lars方法将计算更多的误差,而坐标下降算法只会计算在网格路径上的样本点。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容