关于工业界variance的简单定性数值分析

Variance估计的难处

再次回顾一下Bengio 对当代DNN的理解:
Machine learning is essentially a form of applied statistics with increased emphasis on the use of computers to statistically estimate complicated functions and a decreased emphasis on proving confidence intervals around these functions.
当今工业界更注重模型对大规模数据,复杂函数的拟合能力,而(不得不)忽视其估计的区间。
其实传统的统计模型,对区间的估计一直是非常重视的,但是由于通常在工业界,数据量非常巨大,参数维度也很高,因此直接计算估计参数的Variance很困难,而且由于DNN模型收敛性的理论并不是很健壮(也没有解析解),所以这些在传统统计模型得到的bound并不一定能在工业界模型有那么优秀的表现。

下位替代

综上,所以我们在这里使用近似的方法来获得variance大小一些定性的分析。
以下分析参考了OLS的variance lower bound:(注意其理论lower bound其实有较多正态性假设,所以对特定场景需要谨慎细致地进行判断)

  • 0、 我们LR中模型参数\hat \beta的协方差矩阵为\sigma^2 (X^T X)^{-1}(注意数据集X要先处理成zero mean)

  • 1、参数Variance的分子为样本的残余Variance。表明variance与其预估结果残余的方差成正比(不确定性),由于误差error=bias^2 + variance,而无偏估计量bias=0,相当于在当前模型下,误差都来自于variance,所以对于无偏估计,我们通常可以直接用测试样本上残余的error(RSS)来当作总体variance的近似估计。
    PS:这里直觉上其实也可以得到一个推论:模型继承了数据集残余的不确定性(数值上为RSS),起码模型的不确定性跟这个“残差“是正比的。residual越大(RSS),模型本身的variance也越大。因此我们可以得到如下结论:

  • 推论1:最终样本上的residual越大,模型整体参数的variance越大。模型继承了数据集残余的不确定性,在概率模型中表现在logloss大小上。(PS:注意logloss本身是数值敏感的,需谨慎横向对比,同理类比概率p=0.1p=0.01上相同的数值\sigma=0.01作为区间带来的影响也是不同的。)
  • 2、参数Variance的分母为dataset的covariance matrix(取逆可理解为分母),表明其跟每个特征对应的方差(协方差)成反比。即出现的特征确定性越高,集中,区间小(方差小),则对应参数的variance越大。比如对于0/1二值的特征,其取值越极端,比如99%都是1,那么其variance越小,取了倒数反而其对应的参数的variance越大。换句话说,我们希望其特征的数值分布越宽泛,越“均匀”越好,才能降低预估参数的variance。数值特征即是其数值本身variance越大越好。同理n hot特征即是其激活越均匀越好。

  • 推论2: 某维度的特征变量自身variance越小,模型对应维度参数的variance越大。因此特征值的设计影响最终模型的variance,越均匀越宽泛的特征越能降低模型参数的variance。
  • 3、当计算prediction的方差时:var(\hat y)=x_0^T var(\hat \beta) x_0。假设变量间线性无关,即\sigma^2 (X^T X)^{-1}为对角矩阵。则最终的var(\hat y) = \sum_{i}^{m} x_i^2 \times var(\hat \beta_i),m为特征维度,x_i为0均值化,相当于,var(\hat y)正比于当前样本本身偏离均值的程度加权对应参数variance的加权和。当前样本特征第i维特征x_i偏离其均值越大,对应的参数\hat \beta_i的variance越大,则预估值的variance就越大。
    PS:注意,对于0/1特征来说,其值的variance为\frac {p(1-p)} {n},所以从总体样本上来说,取值越均匀越好(即推论2:特征变量variance越大,模型参数的variance更低)。在当前特定样本来说,取值为majority更好,其权重更低(比如90%取1,10%取0,均值为0.9,归一化后90%为0.1,10%为-0.9,明显0.1离均值0更近,最终加权和更小。)

  • 推论3: 待估样本特征数值取值越接近均值(majority),则其预估值的variance越小。可以以此来分析特定样本的预估区间大小关系。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容