Task6-7

Task6

批量归一化

BatchNormalization想要解决的问题:Internal Covariate Shift

作者:Juliuszh
链接:https://zhuanlan.zhihu.com/p/33173246
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

1.2 深度学习中的 Internal Covariate Shift

深度神经网络模型的训练为什么会很困难?其中一个重要的原因是,深度神经网络涉及到很多层的叠加,而每一层的参数更新会导致上层的输入数据分布发生变化,通过层层叠加,高层的输入分布变化会非常剧烈,这就使得高层需要不断去重新适应底层的参数更新。为了训好模型,我们需要非常谨慎地去设定学习率、初始化权重、以及尽可能细致的参数更新策略。

Google 将这一现象总结为 Internal Covariate Shift,简称 ICS. 什么是 ICS 呢?

@魏秀参

一个回答中做出了一个很好的解释:

大家都知道在统计机器学习中的一个经典假设是“源空间(source domain)和目标空间(target domain)的数据分布(distribution)是一致的”。如果不一致,那么就出现了新的机器学习问题,如 transfer learning / domain adaptation 等。而 covariate shift 就是分布不一致假设之下的一个分支问题,它是指源空间和目标空间的条件概率是一致的,但是其边缘概率不同,即:对所有x\in \chi[图片上传失败...(image-a57c44-1582635612735)]

但是[图片上传失败...(image-5235d6-1582635612735)]大家细想便会发现,的确,对于神经网络的各层输出,由于它们经过了层内操作作用,其分布显然与各层对应的输入信号分布不同,而且差异会随着网络深度增大而增大,可是它们所能“指示”的样本标记(label)仍然是不变的,这便符合了covariate shift的定义。由于是对层间信号的分析,也即是“internal”的来由。

1.3 ICS 会导致什么问题?

简而言之,每个神经元的输入数据不再是“独立同分布”。

其一,上层参数需要不断适应新的输入数据分布,降低学习速度。

其二,下层输入的变化可能趋向于变大或者变小,导致上层落入饱和区,使得学习过早停止。

其三,每层的更新都会影响到其它层,因此每层的参数更新策略需要尽可能的谨慎。

[图片上传失败...(image-4e9d98-1582635612735)]

最后scale and shift中\gamma,\beta分别称为缩放系数,平移系数。

作用:为了保证模型的表达能力不因为规范化而下降

批量归一化层在仿射变换之后,激活函数之前。

其他归一化方法

Layer Normalization

Instance Normalization

Group Normalization

FRN(Filter Response Normalization)

残差网络

动机:网络退化

在神经网络可以收敛的前提下,随着网络深度增加,网络的表现先是逐渐增加至饱和,然后迅速下降[1]

需要注意,网络退化问题不是过拟合导致的,即便在模型训练过程中,同样的训练轮次下,退化的网络也比稍浅层的网络的训练错误更高,如下图[1]所示。

[模型退化:深层模型反而取得更低的训练和测试误差]

这一点并不符合常理:如果存在某个K层的网络f是当前最优的网络,那么可以构造一个更深的网络,其最后几层仅是该网络fK层输出的恒等映射(Identity Mapping),就可以取得与f一致的结果;也许K还不是所谓“最佳层数”,那么更深的网络就可以取得更好的结果。总而言之,与浅层网络相比,更深的网络的表现不应该更差。因此,一个合理的猜测就是,对神经网络来说,恒等映射并不容易拟合

作者:LinT
链接:https://zhuanlan.zhihu.com/p/80226180
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

残差块

image.png

image.png

在前向传播时,输入信号可以从任意低层直接传播到高层。由于包含了一个天然的恒等映射,一定程度上可以解决网络退化问题

网络结构

img
img

稠密网络

img

DenseNet:比ResNet更优的CNN模型 - 小小将的文章 - 知乎 https://zhuanlan.zhihu.com/p/37189203

凸优化

凸函数的定义:
\lambda f(x)+(1-\lambda)f(x')\geq f(\lambda x+(1-\lambda) x')
Jensen不等式:
\sum_i \alpha_if(x_i)\geq f(\sum_i \alpha_ix_i)\\ E_x[f(x)]\geq f(E_x[x])
凸函数的期望大于等于期望的凸函数

性质

  1. 无局部最小值

  2. 对于凸函数 f(x),定义集合 S_b:={x|x∈X and f(x)≤b},则集合 S_b 为凸集

  3. f′′(x)≥0⟺f(x)f″(x)≥0⟺f(x) 是凸函数

梯度下降

牛顿法

梯度下降法、牛顿法和拟牛顿法 - Eureka的文章 - 知乎 https://zhuanlan.zhihu.com/p/37524275

image.png

红色曲线是利用牛顿法迭代求解,绿色曲线是利用梯度下降法求解。

image.png

动态学习率

image.png

先大后小

Task7

优化算法

一般来说,ill-conditioned是指问题的条件数(condition number)非常大,从而比较难以优化,或者说需要更多迭代次数来达到同样精度。直观上来讲,条件数是:函数梯度最大变化速度 / 梯度最小变化速度(对于二阶可导函数,条件数的严格定义是:Hessian矩阵最大特征值的上界 / 最小特征值的下界)。

用最简单的话来解释就是,问题条件数大意味着目标函数在有的地方(或有的方向)变化很快、有的地方很慢,比较不规律,从而很难用当前的局部信息(也就是梯度)去比较准确地预测最优点所在的位置,只能一步步缓慢的逼近最优点,从而优化时需要更多的迭代次数。

作者:Martin Tan
链接:https://www.zhihu.com/question/56977045/answer/151137770
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

img

Solution to ill-condition

  • Preconditioning gradient vector: applied in Adam, RMSProp, AdaGrad, Adelta, KFC, Natural gradient and other secord-order optimization algorithms.
  • Averaging history gradient: like momentum, which allows larger learning rates to accelerate convergence; applied in Adam, RMSProp, SGD momentum.

Momentum动量

设时间步t的自变量为\boldsymbol{x}_t,学习率为\eta_t。 在时间步0,动量法创建速度变量v_0,并将其元素初始化成0。在时间步t>0,动量法对每次迭代的步骤做如下修改:
\begin{aligned}\boldsymbol{v}_t &\leftarrow \gamma \boldsymbol{v}_{t-1} + \eta_t \boldsymbol{g}_t, \\\boldsymbol{x}_t &\leftarrow \boldsymbol{x}_{t-1} - \boldsymbol{v}_t,\end{aligned}
其中,动量超参数\gamma 满足0\leq \gamma < 10。当\gamma=0时,动量法等价于小批量随机梯度下降。

或:
\begin{aligned}\boldsymbol{v}_t &\leftarrow \gamma \boldsymbol{v}_{t-1} + (1-\gamma) \boldsymbol{g}_t, \\\boldsymbol{x}_t &\leftarrow \boldsymbol{x}_{t-1} - \alpha_t \boldsymbol{v}_t,\alpha_t=\frac{\eta_t}{1-\gamma}\end{aligned}
<img src="https://tangshusen.me/Dive-into-DL-PyTorch/img/chapter07/7.4_output1.png" alt="img" style="zoom:50%;" />

<img src="https://tangshusen.me/Dive-into-DL-PyTorch/img/chapter07/7.4_output3.png" alt="img" style="zoom:50%;" />

AdaGrad

s_0初始化为0, g_t^2为按元素平方
s_t\leftarrow s_{t-1}+g_t^2\\x_t\leftarrow x_{t-1}-\frac{\eta}{\sqrt{s_t+ϵ}}\odot g_t

  1. g_t较大时,学习率下降得快

  2. g_t较小时,学习率下降得慢

  3. 若前期下降过快则后期学习率后期过小

    <img src="https://staticcdn.boyuai.com/rt_upload/65D88109B129448EB6DAC9C0A04110BF/q5qoefd6ox.svg" alt="img" style="zoom: 80%;" />

RMSProp

s_t\leftarrow \beta s_{t-1}+(1-\beta)g_t^2\\x_t\leftarrow x_{t-1}-\frac{\eta}{\sqrt{s_t+ϵ}}\odot g_t

指数移动平均调整学习率

可以看作是最近1/(1−β)个时间步的小批量随机梯度平方项的加权平均。如此一来,自变量每个元素的学习率在迭代过程中就不再一直降低(或不变)。

[图片上传失败...(image-49a745-1582635612735)]

AdaDelta

在RMSProp的基础上,维护一个额外的状态变量\Delta x_t代替学习率
g'_t\leftarrow \sqrt{\frac{\Delta x_{t-1}+ϵ}{s_{t}+ϵ}}\odot g_t\\x_t\leftarrow x_{t-1}-g'_t\\\Delta x_{t}\leftarrow \beta\Delta x_{t-1}+(1-\beta)g'^2_t
在pytorch中的\beta参数名是rho - \rho

Adam

Adaptive Moment Estimation

本质上是带有动量项的RMSprop,它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率

<img src="Task6-8.assets/image-20200225195047950.png" alt="image-20200225195047950" style="zoom: 67%;" />

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容