关于工业界variance的简单定性数值分析

Variance估计的难处

再次回顾一下Bengio 对当代DNN的理解：
Machine learning is essentially a form of applied statistics with increased emphasis on the use of computers to statistically estimate complicated functions and a decreased emphasis on proving confidence intervals around these functions.
当今工业界更注重模型对大规模数据，复杂函数的拟合能力，而（不得不）忽视其估计的区间。
其实传统的统计模型，对区间的估计一直是非常重视的，但是由于通常在工业界，数据量非常巨大，参数维度也很高，因此直接计算估计参数的Variance很困难，而且由于DNN模型收敛性的理论并不是很健壮（也没有解析解），所以这些在传统统计模型得到的bound并不一定能在工业界模型有那么优秀的表现。

下位替代

综上，所以我们在这里使用近似的方法来获得variance大小一些定性的分析。
以下分析参考了OLS的variance lower bound：（注意其理论lower bound其实有较多正态性假设，所以对特定场景需要谨慎细致地进行判断）

0、我们LR中模型参数 $\hat \beta$ 的协方差矩阵为 $\sigma^2 (X^T X)^{-1}$ （注意数据集 $X$ 要先处理成zero mean）
1、参数Variance的分子为样本的残余Variance。表明variance与其预估结果残余的方差成正比（不确定性），由于误差 $error=bias^2 + variance$ ，而无偏估计量 $bias=0$ ，相当于在当前模型下，误差都来自于 $variance$ ，所以对于无偏估计，我们通常可以直接用测试样本上残余的error（RSS）来当作总体variance的近似估计。
PS：这里直觉上其实也可以得到一个推论：模型继承了数据集残余的不确定性（数值上为RSS），起码模型的不确定性跟这个“残差“是正比的。residual越大（RSS），模型本身的variance也越大。因此我们可以得到如下结论：
推论1:最终样本上的residual越大，模型整体参数的variance越大。模型继承了数据集残余的不确定性，在概率模型中表现在logloss大小上。（PS：注意logloss本身是数值敏感的，需谨慎横向对比，同理类比概率 $p=0.1$ 和 $p=0.01$ 上相同的数值 $\sigma=0.01$ 作为区间带来的影响也是不同的。）
2、参数Variance的分母为dataset的covariance matrix(取逆可理解为分母)，表明其跟每个特征对应的方差（协方差）成反比。即出现的特征确定性越高，集中，区间小（方差小），则对应参数的variance越大。比如对于0/1二值的特征，其取值越极端，比如99%都是1，那么其variance越小，取了倒数反而其对应的参数的variance越大。换句话说，我们希望其特征的数值分布越宽泛，越“均匀”越好，才能降低预估参数的variance。数值特征即是其数值本身variance越大越好。同理n hot特征即是其激活越均匀越好。
推论2: 某维度的特征变量自身variance越小，模型对应维度参数的variance越大。因此特征值的设计影响最终模型的variance，越均匀越宽泛的特征越能降低模型参数的variance。
3、当计算prediction的方差时： $var(\hat y)=x_0^T var(\hat \beta) x_0$ 。假设变量间线性无关，即 $\sigma^2 (X^T X)^{-1}$ 为对角矩阵。则最终的 $var(\hat y) = \sum_{i}^{m} x_i^2 \times var(\hat \beta_i)$ ，m为特征维度， $x_i$ 为0均值化，相当于， $var(\hat y)$ 正比于当前样本本身偏离均值的程度加权对应参数variance的加权和。当前样本特征第i维特征 $x_i$ 偏离其均值越大，对应的参数 $\hat \beta_i$ 的variance越大，则预估值的variance就越大。
PS：注意，对于0/1特征来说，其值的variance为 $\frac {p(1-p)} {n}$ ，所以从总体样本上来说，取值越均匀越好（即推论2：特征变量variance越大，模型参数的variance更低）。在当前特定样本来说，取值为majority更好，其权重更低（比如90%取1，10%取0，均值为0.9，归一化后90%为0.1，10%为-0.9，明显0.1离均值0更近，最终加权和更小。）
推论3: 待估样本特征数值取值越接近均值（majority），则其预估值的variance越小。可以以此来分析特定样本的预估区间大小关系。