关于工业界variance的简单定性数值分析

Variance估计的难处

再次回顾一下Bengio 对当代DNN的理解:
Machine learning is essentially a form of applied statistics with increased emphasis on the use of computers to statistically estimate complicated functions and a decreased emphasis on proving confidence intervals around these functions.
当今工业界更注重模型对大规模数据,复杂函数的拟合能力,而(不得不)忽视其估计的区间。
其实传统的统计模型,对区间的估计一直是非常重视的,但是由于通常在工业界,数据量非常巨大,参数维度也很高,因此直接计算估计参数的Variance很困难,而且由于DNN模型收敛性的理论并不是很健壮(也没有解析解),所以这些在传统统计模型得到的bound并不一定能在工业界模型有那么优秀的表现。

下位替代

综上,所以我们在这里使用近似的方法来获得variance大小一些定性的分析。
以下分析参考了OLS的variance lower bound:(注意其理论lower bound其实有较多正态性假设,所以对特定场景需要谨慎细致地进行判断)

  • 0、 我们LR中模型参数\hat \beta的协方差矩阵为\sigma^2 (X^T X)^{-1}(注意数据集X要先处理成zero mean)

  • 1、参数Variance的分子为样本的残余Variance。表明variance与其预估结果残余的方差成正比(不确定性),由于误差error=bias^2 + variance,而无偏估计量bias=0,相当于在当前模型下,误差都来自于variance,所以对于无偏估计,我们通常可以直接用测试样本上残余的error(RSS)来当作总体variance的近似估计。
    PS:这里直觉上其实也可以得到一个推论:模型继承了数据集残余的不确定性(数值上为RSS),起码模型的不确定性跟这个“残差“是正比的。residual越大(RSS),模型本身的variance也越大。因此我们可以得到如下结论:

  • 推论1:最终样本上的residual越大,模型整体参数的variance越大。模型继承了数据集残余的不确定性,在概率模型中表现在logloss大小上。(PS:注意logloss本身是数值敏感的,需谨慎横向对比,同理类比概率p=0.1p=0.01上相同的数值\sigma=0.01作为区间带来的影响也是不同的。)
  • 2、参数Variance的分母为dataset的covariance matrix(取逆可理解为分母),表明其跟每个特征对应的方差(协方差)成反比。即出现的特征确定性越高,集中,区间小(方差小),则对应参数的variance越大。比如对于0/1二值的特征,其取值越极端,比如99%都是1,那么其variance越小,取了倒数反而其对应的参数的variance越大。换句话说,我们希望其特征的数值分布越宽泛,越“均匀”越好,才能降低预估参数的variance。数值特征即是其数值本身variance越大越好。同理n hot特征即是其激活越均匀越好。

  • 推论2: 某维度的特征变量自身variance越小,模型对应维度参数的variance越大。因此特征值的设计影响最终模型的variance,越均匀越宽泛的特征越能降低模型参数的variance。
  • 3、当计算prediction的方差时:var(\hat y)=x_0^T var(\hat \beta) x_0。假设变量间线性无关,即\sigma^2 (X^T X)^{-1}为对角矩阵。则最终的var(\hat y) = \sum_{i}^{m} x_i^2 \times var(\hat \beta_i),m为特征维度,x_i为0均值化,相当于,var(\hat y)正比于当前样本本身偏离均值的程度加权对应参数variance的加权和。当前样本特征第i维特征x_i偏离其均值越大,对应的参数\hat \beta_i的variance越大,则预估值的variance就越大。
    PS:注意,对于0/1特征来说,其值的variance为\frac {p(1-p)} {n},所以从总体样本上来说,取值越均匀越好(即推论2:特征变量variance越大,模型参数的variance更低)。在当前特定样本来说,取值为majority更好,其权重更低(比如90%取1,10%取0,均值为0.9,归一化后90%为0.1,10%为-0.9,明显0.1离均值0更近,最终加权和更小。)

  • 推论3: 待估样本特征数值取值越接近均值(majority),则其预估值的variance越小。可以以此来分析特定样本的预估区间大小关系。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,588评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,456评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,146评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,387评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,481评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,510评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,522评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,296评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,745评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,039评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,202评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,901评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,538评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,165评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,415评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,081评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,085评论 2 352

推荐阅读更多精彩内容