[FRN] Filter Response Normalization

背景

BN依赖于Batch做归一化,在小批量上会出现性能退化;GN虽然通过将特征在Channel上分组来摆脱Batch的 依赖,但是在大批量上性能不如BN。

BN 到GN

<span style='color: red'>机器学习最重要的任务</span>

根据一些以观察到的证据来对感兴趣的位置变量进行估计和推测。

概率模型提高了一种描述框架,将学习任务归结于计算变量。

归一化处理有助于模型的优化。

BN

BN 通过计算batch中所有样本的每个channel上的均值和方差来进行归一化。

计算方式伪代码:

FRN计算步骤伪代码
  1. 计算在(B, H, W)维度上的均值\mu和方差\sigma^2
  2. 在各个通道上进行标准归一化
  3. 对归一化的特征进行放缩 \gamma 和平移 \beta,其中两个参数是可学习的

问题

  1. 训练时batch较大,预测时batch通常为1,造成训练和预测时均值 \gamma 和方差 \sigma^2 的计算分布不一致。

    BN的解决方案是 在训练时估计一个均值和方差量来作为测试时的归一化参数,一般对每次mini-batch的均值和方差进行指数加权平均来得到

  2. BN对batch的大小敏感,如果batch太小,模型性能会明显恶化,且受限于显存大小,当前很多模型的batch难以很大。

解决BN问题

1. 避免在batch维度归一化

由上述,我们知道如果避免在batch维度上进行归一化可以避免batch带来的问题。BN的两个主要问题 <span style='color: blue'>训练和与测试均值和方差计算分布不一致</span> 和 <span style='color: blue'>batch太小模型性能恶化</span> 都是batch维度带来的,显然不在batch上进行归一化,上述问题就迎刃而解了。

基于这一观点,衍生出一系列方法:

Layer NormalizationInstance NormalizationGroup Normalization

LN,IN,GN,BN的区别
BN LN IN GN
处理维度 (B, H, W) (H, W, C) (H, W) (H, W, G)

GN在归一化时需要对C分组,即特征从 [B, H, W, C] 转换成 [B, H, W, G, C/G]

LN,IN,GN都没有在batch维度上进行归一化,所以不会有BN的问题。相比之下,GN更为常用。

GN 和 BN 性能对比
2. 降低训练和测试之间的不一致性

Batch Renomalization

限制训练过程中batch统计量的值范围

3. 多卡BN方法训练

相当于增大batch size。

FRN

FRN层包括 FRN归一化层FRN (Filter Response Normalization)激活层TLU (Threshold Linear Unit)

FRN不仅消除了训练时对batch的依赖,而且当batch size较大时性能由于BN。

FRN结构示意图

原理  FRN的操作是在 (H, W) 维度上的,即对每个样本的每个channel单独进行归一化,这里x就是一个N维度(H \times W)的向量,所以没有对batch依赖的问题。FRN没有采样高斯分布进行归一化,而是除以x的二次范数的平均值。这种归一化方式类似BN可以消除中间操作(卷积和非线性激活)带来的尺度问题,有助于模型训练。

\epsilon   防止除0的小正常量。FRN 是在 H,W 两个维度归一化,一般情况下网络的特征图大小 N=H\times W 较大,但有时候会出现 1 \times 1的情况。

对于特征图为 1 \times 1 的情况,\epsilon 就比较关键,不同的 \epsilon 正则化效果区别很大。当 \epsilon 值较小时,归一化相当于符号函数,这时候梯度几乎为0,严重影响模型训练;当 \epsilon 值较大时,曲线变得更圆滑,此时梯度有助于学习。对于这种情况,论文建议采用一个可学习的 \epsilon

不同eps的梯度对比

IN 也是在 H, W维度上进行归一化,但是会减去均值,对于 N=1 的情况归一化结果是 0,但FRN可以避免这个问题。

归一化之后同样需要进行缩放和平移变换,这里 \gamma\beta 也是可学习的参数:
y = \gamma \hat{x} + \beta
FRN缺少减均值的操作,可能使得归一化的结果任意地偏移0,如果FRN之后是ReLU激活层,可能产生很多0值,这对于模型训练和性能是不利地。

为了解决这个问题,FRN之后采用阈值化的ReLU,即TLU:
z = max(y, \tau) = ReLU(y - \tau) + \tau
其中 \tau 是可学习参数。

实验结果

实验结果

代码实现

class FilterResponseNormNd(nn.Module):
    def __init__(self, ndim, num_features, eps=1e-6, learnable_eps=False):
        assert ndim in [3,4,5], \
            'FilterResponseNorm only support 3d, 4d or 5d inputs'
        super(FilterResponseNormNd, self).__init__()
        shape = (1, num_features) + (1, ) * (ndim - 2)
        self.eps = nn.Parameter(torch.ones(*shape) * eps)
        if not learnable_eps:
            self.eps.required_grad_(False)
        self.gamma = nn.Parameter(torch.Tensor(*shape))
        self.beta = nn.Parameter(torch.Tensor(*shape))
        self.tau = nn.Parameter(torch.Tensor(*shape))
        self.reset_parameters()
    def forward(self, x):
        avg_dims = tuple(range(2, x.dim()))
        nu2 = torch.pow(x, 2).mean(dim=avg_dims, keepdim=True)
        x = x * torch.rsqrt(nu2 + torch.abs(self.eps))
        return torch.max(self.gamma * x + self.bata, self.tau)
    def reset_parameters(self):
        nn.init.ones_(self.gamma)
        nn.init.zeros_(self.beta)
        nn.init.zeros_(self.tau)
    
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 229,362评论 6 537
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 99,013评论 3 423
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 177,346评论 0 382
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 63,421评论 1 316
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 72,146评论 6 410
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 55,534评论 1 325
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 43,585评论 3 444
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 42,767评论 0 289
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 49,318评论 1 335
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 41,074评论 3 356
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 43,258评论 1 371
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 38,828评论 5 362
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 44,486评论 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 34,916评论 0 28
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 36,156评论 1 290
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 51,993评论 3 395
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 48,234评论 2 375

推荐阅读更多精彩内容