怎么理解Batch Normalization及其Back Propagation

主要参考:

  1. cs231n Andrej 的讲解


  2. 国外一个blog:
    https://kratzert.github.io/2016/02/12/understanding-the-gradient-flow-through-the-batch-normalization-layer.html
  3. 数学公式推导解法:
    http://cthorey.github.io./backpropagation/

1. Forward

之所以叫Batch,是因为mean和variance只基于一部分数据来计算。在assignment中,train的时候batch normalization的计算方式是:

    # get the mean of every feature
    u_b = (np.sum(x, axis=0))/N
    # get the variance
    sigma_squared_b = np.sum((x-u_b)**2, axis=0)/N
    # get x_hat
    x_hat = (x-u_b)/np.sqrt(sigma_squared_b+eps)

    out = gamma*x_hat + beta
    cache['mean'] = u_b
    cache['variance'] = sigma_squared_b
    cache['x_hat'] = x_hat
    cache['gamma'] = gamma
    cache['beta'] = beta
    cache['eps'] = eps
    cache['x'] = x

    # keep tracking of running mean and var
    running_mean = momentum*running_mean + (1-momentum)*u_b
    running_var = momentum*running_var + (1-momentum)*sigma_squared_b

注意到,最后还有一个在实时更新的带有momentum的running_mean和running_var。这个update是有意义的,因为它可以调整在训练过程中的数据偏离。

2. Backward

backward是重点介绍对象,一开始我觉得实现起来很直接很简单,后来发现本质上是一个有些复杂的小网络的back prop。cs231n在介绍back prop的时候讲的很好,在面对任何可微分的系统的时候,我们都可以按照graph的方式来进行一点一点的回溯。以下是blog中介绍的batch normalization的graph:

具体一步步的计算直接参考第二个链接就可以了。良心分析啊...

笔者本人感到比较无奈的一点是最近实在是太忙了,对于这个batch normalization的assignment直接去看了外网上的回答和思路没有自己推导。希望之后有时间的时候完全自己再过一遍推一遍,毕竟看懂别人是怎么做的和自己真正完全明白了还是有区别的,可能还有一些隐形的问题我没有发现。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 视频里 Andrej Karpathy上课的时候说,这次的作业meaty but educational,确实很m...
    X_Y阅读 2,348评论 0 2
  • 视频里 Andrej Karpathy上课的时候说,这次的作业meaty but educational,确实很m...
    X_Y阅读 1,506评论 0 0
  • “你的观念、你的信仰、你的环境、你的朋友、你的呼吸、你吃的食物、你的欲望、你的静息与睡眠等都会影响你的磁场,这些气...
    羲子阅读 531评论 0 0
  • 步骤: 『file』-> 『Settings』->『Project Interpreter』 点击左侧导航『Pro...
    刑素素阅读 7,517评论 0 1
  • 因为你 我穿越了时空来到地球 不求你认识 只求相遇 因为你 我的世界变得无彩 唯有你 沾上了彩色 因为你 我变得冷...
    泽秦阅读 252评论 8 27

友情链接更多精彩内容