1. Forward

之所以叫Batch，是因为mean和variance只基于一部分数据来计算。在assignment中，train的时候batch normalization的计算方式是：

    # get the mean of every feature
    u_b = (np.sum(x, axis=0))/N
    # get the variance
    sigma_squared_b = np.sum((x-u_b)**2, axis=0)/N
    # get x_hat
    x_hat = (x-u_b)/np.sqrt(sigma_squared_b+eps)

    out = gamma*x_hat + beta
    cache['mean'] = u_b
    cache['variance'] = sigma_squared_b
    cache['x_hat'] = x_hat
    cache['gamma'] = gamma
    cache['beta'] = beta
    cache['eps'] = eps
    cache['x'] = x

    # keep tracking of running mean and var
    running_mean = momentum*running_mean + (1-momentum)*u_b
    running_var = momentum*running_var + (1-momentum)*sigma_squared_b

注意到，最后还有一个在实时更新的带有momentum的running_mean和running_var。这个update是有意义的，因为它可以调整在训练过程中的数据偏离。

2. Backward

backward是重点介绍对象，一开始我觉得实现起来很直接很简单，后来发现本质上是一个有些复杂的小网络的back prop。cs231n在介绍back prop的时候讲的很好，在面对任何可微分的系统的时候，我们都可以按照graph的方式来进行一点一点的回溯。以下是blog中介绍的batch normalization的graph：

具体一步步的计算直接参考第二个链接就可以了。良心分析啊...

笔者本人感到比较无奈的一点是最近实在是太忙了，对于这个batch normalization的assignment直接去看了外网上的回答和思路没有自己推导。希望之后有时间的时候完全自己再过一遍推一遍，毕竟看懂别人是怎么做的和自己真正完全明白了还是有区别的，可能还有一些隐形的问题我没有发现。

最后编辑于：2017.12.05 03:04:16

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

怎么理解Batch Normalization及其Back Propagation

怎么理解Batch Normalization及其Back Propagation

1. Forward

2. Backward

相关阅读更多精彩内容

友情链接更多精彩内容