CS231N 学习笔记 Lecture7 训练神经网络

权重初始化需要注意的有:


1. Fancier optimization

SGD,计算梯度然后更新权重

随机梯度下降的问题:

损失在一个方向很敏感,另一个方向的改变很小! 锯齿形状

不均衡
局部最小点,鞍点

并且saddle points在高纬度情况下更常见。根据minibatch计算的梯度可能有噪声,仅依赖当前batch的数据,更新很不稳定。

解决方法:

1. Momentum 

增加动量

不是梯度方向,而是速度方向。Momentum即动量,它模拟的是物体运动时的惯性,即更新的时候在一定程度上保留之前更新的方向,同时利用当前batch的梯度微调最终的更新方向。这样可以增加稳定性,从而学习地更快,并且具有摆脱局部最优的能力。

Momentum可以解决SGD的问题
动量的图形解释

红色点是当前的点,红色的向量是梯度的方向,绿色是速度矢量的方向,动量更新是红色绿色两个的加权平均。

其中Nesterov Momentum方法的思想是:按照原来的更新方向更新一步(绿色线),然后在该位置计算梯度值(红色线),然后用这个梯度值修正最终的更新方向(蓝色线)

由于往往是根据xt去更新参数的,那么对其进行修改之后,将x写成x上波浪线

2. AdaGrad

平方。遇到变化缓慢的纬度,它可以增速,遇到变化快的纬度,可以减速其改变。其训练时间增加时,它的改变会越来愈小。对于凸的问题时,是好的,应为收敛并且变化越来越小,然而对于非凸的问题,可能会陷入到局部最优点。一个解决方法就是RMSProp

3. RMSProp

好像SGD+Momentum过于兴奋了,哈哈哈哈。小哥有说在使用Adagrad的时候可能需要增加学习速率,不过现在好像不怎么用了。

4. Adam

结合了动量中速度的想法和AdaGrad和RMSProp中的平方思想。

在第一个时刻的问题:beta2是0.9或0.99,所以second_moment很接近零。所以第一个时刻可能会走很大一步。1e-7是为了保证分母不是0

解决起始为0的问题:使用无偏估计,并且下页ppt中给出了常用的参数设置。



学习速率:

一阶优化:线性近似,不能走太远

一阶泰勒近似

二阶优化:

二阶泰勒近似


没有学习速率,但是Hessian矩阵太大了

一些改进的方法:

L-BFGS:近似H,但是在很多深度学习问题上表现并不好,在实际中,通常使用一下两种方法:



在实际中,希望增强模型的泛化能力:

这些模型中的超参数往往不同


在测试阶段往往不是使用参数向量,而是在训练阶段将其平均值保存起来,用于测试阶段



2. 正则化

增强模型的泛化能力

Dropout的思想:每次前向的时候,随机设置一些神经元的值为0,通常概率为0.5。

1. Forces the network to have a redundant representation,prevents co-adaptation of features。2. Dropout is training a large ensemble of models(that share parameters)



dropout中的batch normalization



Data Augmentation:

图像的水平平移,旋转,随机选取等,color jitter

训练阶段:增加一些随机性的噪音

测试阶段:边缘化噪声。


Fractional Max Pooling: suggests a method for performing the pooling operation with filters smaller than 2x2. This is done by randomly generating pooling regions with a combination of 1x1, 1x2, 2x1 or 2x2 filters to tile the input activation map. The grids are generated randomly on each forward pass, and at test time the predictions can be averaged across several grids.


3. Transfer Learning:

可能不需要太多的数据,在大的数据集上训练好模型,然后将其他参数冻结,接着重新初始化最后一个参数


现在很多图像相关的任务都是在ImageNet上做预训练,然后再做Fine tune微调。

文本相关的:word vectors pretrained with word2vec

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,444评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,421评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,363评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,460评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,502评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,511评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,280评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,736评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,014评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,190评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,848评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,531评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,159评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,411评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,067评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,078评论 2 352

推荐阅读更多精彩内容