Variance in GLM with penalty

理解

estimator param的variance到底意味着什么,我们为什么需要研究它?当代工业界复杂模型(namely DNN)的variance如何,为何需要Shrinkage,bias&variance与模型复杂度,样本包含信息量的关系?

  • 1、多次采样,估计值的离散程度。Sampling variability
    其实\hat \beta的Variance很好理解,就是如果我们从相同总体中,多次抽样(不同样本),然后做相同的估计流程,最后得到的参数\hat \beta_1,\hat \beta_2,\hat \beta_3...\hat \beta_n的离散程度。如果这个离散程度越小,那么我们的估计越“稳定”,同时可以推导出相同输入时,outcome的估计\hat Y也越“稳定”。
    因此,我们可以用这个离散程度,来进行区间估计,获得\hat Y的confidence Interval。

  • 2、现代的大规模深度学习,往往有非常小的bias,但是有很大的variance。
    Deep learning is an applied statistics with less emphasis on confidence intervals。
    对于现代DNN,我们更注重于模型的拟合,表达能力。而选择性忽略了其在区间估计上的不足。
    对于DNN来说,我们的目标往往是优化泛化误差:generalization\ error = bias + variance + irreducible\ error,即优化bias and variance simultaneously。
    往往我们DNN超参的选择上,会选择使模型获得最小化泛化误差的参数。
    手段:
    a、改变模型复杂度。模型越复杂(即越flexible),越能获得更小的bias,同时variance可能会更大。(对于特别复杂,包含信息量很高的数据,我们往往需要很复杂的模型以获得更小的bias。)
    b、调整Shrinkage Factor。shrinkage缩小了样本采样带来的变化(reduction in the effects of sampling variation),即降低了variance。常见的Lasso,Ridge,都是牺牲一定的bias,以达到更小的variance。我们的L1,L2penalties 都是种隐式的Shrinkage。
    c、收集更多数据。更多的数据,能降低variance[3]。一般来说,只有我们的泛化误差largely be defined by variance的情况下,收集更多数据才有用。对于high bias model或者数据本身包含的信息量就很少的状况来说,提升数据也没有啥用。
    评估与观测方法:
    一般我们用learning curve来确定数据量,用cross validation来确定模型的超参。所以一般用cv error,train error一起做learning curve
    纵坐标一般都是error(test error,train error,cv error)。横坐标epoch轮数/batch轮数 ,用于设定学习率,训练轮数。横坐标dataset size[],用于决定数据量。横坐标shrinkage factor/model size,能得到与dataset size相似的图像,权衡bias&variance。
    注意:由于我们sampling variability的存在,我们总是需要CV来验证。即使我们数据量非常大,严谨来讲通常也需要用CV,因为对于大量的数据,我们模型往往也很大,所以其flexibility 也很高,潜在的variance也是巨大的。

  • 3、思考:
    由于工业界数据的复杂性,真实因素的多样性,以及数据信息量的巨大性。因此复杂的模型才会大行其道。
    在追求泛化误差最小为目标的情况下,我们只关心最终的泛化误差,而不会精准拆解出其中的bias或者varianc。但是当有偏Bias,或者Variance成为问题时,我们会进行优化,譬如如下场景:
    a、在我们常见的EE问题中,大部分情况下,其中核心要解决的也是sampling variability,即降低variance
    b、而我们需要去偏的场景,往往也是因为譬如“特征缺失“,以及某些特定条件导致的样本本身有偏。可能导致的系统性问题。具体可见:https://www.jianshu.com/p/7daf4789c24c【这里最后的讨论也可见,在prediction与inference任务中,对bias与variance有明显的偏好】

Ridge Regression[1][2]

  • 1、有偏
    \mathbb E(\hat \beta) \neq \beta
  • 2、Bias随着\lambda的增大而增大
    \mathbb E(\hat \beta) = \beta - \lambda (X^TX + \lambda I)^{-1} \beta
  • 3、方差小于OLS
    Var(\hat \beta_{OLS}) \geq Var(\hat \beta_{Ridge})
  • 4、方差随着\lambda的增大而减小
    TODO

Logistics Regression with l2 penalty

由于Fisher Information是对于无偏估计量,可以用\mathbb I^{-1}来计算variance的下界(可见:https://www.jianshu.com/p/1dbd868e541a)。所以对于有偏估计来说,严格意义上来讲我们不能此来做variance的估计。
TODO
PS:由于上述的penalty都和\beta大小有关,所以是量纲敏感的,因此我们对于这种模型通常都要做归一化

Refer
[1],ridge regression中相关推导
Lecture notes on ridge regression

[2]
shrinkage 方向:
PCA与样本协方差:
https://zhuanlan.zhihu.com/p/132275334

[3]
Shrinkage estimator:
https://en.wikipedia.org/wiki/Shrinkage_(statistics)
sample variance 的估计量:选择除数以达到更小的variance
https://en.wikipedia.org/wiki/Mean_squared_error#Variance

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容