tensorflow optimizer(优化器学习小结)

optimizer 类

根据官方文档,tf的optimizer类下有以下子类

class AdadeltaOptimizer: Optimizer that implements the Adadelta algorithm.
class AdagradDAOptimizer: Adagrad Dual Averaging algorithm for sparse linear models.
class AdagradOptimizer: Optimizer that implements the Adagrad algorithm.
class AdamOptimizer: Optimizer that implements the Adam algorithm.
class FtrlOptimizer: Optimizer that implements the FTRL algorithm.
class MomentumOptimizer: Optimizer that implements the Momentum algorithm.
class GradientDescentOptimizer: Optimizer that implements the gradient descent algorithm.
class ProximalAdagradOptimizer: Optimizer that implements the Proximal Adagrad algorithm.
class ProximalGradientDescentOptimizer: Optimizer that implements the proximal gradient descent algorithm.
class RMSPropOptimizer: Optimizer that implements the RMSProp algorithm.
class SyncReplicasOptimizer: Class to synchronize, aggregate gradients and pass them to the optimizer.

优化器比较多,这里主要总结下GradientDescentOptimizer,ProximalGradientDescentOptimizer,SyncReplicasOptimizer三个和梯度下降相关的优化器。

GradientDescentOptimizer

优化器实现的是梯度下降算法。梯度下降原理这里不过多阐述,可以查看参考文献。

__init__(
    learning_rate,
    use_locking=False,
    name='GradientDescent'
)

GradientDescentOptimizer初始化方法中包含三个参数
name:优化器名字
learning_rate: 学习率,控制参数的更新速度。过大过小都会影响算法的运算时间和结果,过大容易发散,过小运算时间太长。
use_locking: 默认False。变量允许并发读写操作,若为true则防止对变量的并发更新。
根据官方文档FAQ中说明:

How do variables behave when they are concurrently accessed?
Variables allow concurrent read and write operations. The value read from a variable may change if it is concurrently updated. By default, concurrent assignment operations to a variable are allowed to run with no mutual exclusion. To acquire a lock when assigning to a variable, pass use_locking=True to tf.Variable.assign.

学习率(learning_rate)变化的方法可采用指数衰减法-封装方法为:
tf.train.exponential_decay

tf.train.exponential_decay(
    learning_rate,
    global_step,
    decay_steps,
    decay_rate,
    staircase=False,
    name=None
)

实现算法为:
decayed\_learning\_rate = learning\_rate *decay\_rate^{(global\_step / decay\_steps)}

根据global_step增加,实现learning_rate呈指数衰减.
staircase字段提供了不同的衰减方式,当staircase = True 时候 global_step / decay_steps 为整数除法,衰减学习率服从阶梯函数。

核心方法:

minimize(
    loss,
    global_step=None,
    var_list=None,
    gate_gradients=GATE_OP,
    aggregation_method=None,
    colocate_gradients_with_ops=False,
    name=None,
    grad_loss=None
)

主要的两个参数:
loss:构造优化的损失函数,类型Tensor
global_step:通常于学习率变化一起使用,可选变量,在变量更新后增加1。

样例:

global_step = tf.Variable(0)
decay_steps = 100
decay_rate= 0.9 
learning_rate = tf.train.exponential_decay(0.01,global_step,decay_steps,decay_rate,staircase = True,name = 'demo')
train_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss, global_step = global_step)

样例中的学习率采用每100步骤呈一次0.9的比率阶梯性下降。其中loss 是需要编写的损失函数。

ProximalGradientDescentOptimizer

近端梯度方法:wiki中介绍说Proximal Gradient Descent是用于解决不可微凸优化问题的广义投影形式。原理可以查看这篇文章(http://papers.nips.cc/paper/3793-efficient-learning-using-forward-backward-splitting.pdf)。
该算法求解的问题是:
min F(x)+R(x)
其中,F(x) 凸、可导,R(X) 凸;
公式推导可以参考 http://roachsinai.github.io/2016/08/03/1Proximal_Method/

该方法初始化内容:

__init__(
    learning_rate,
    l1_regularization_strength=0.0,
    l2_regularization_strength=0.0,
    use_locking=False,
    name='ProximalGradientDescent'
)

除了学习率以外还有,l1_regularization_strength,l2_regularization_strength两个参数。通过设置两个值来选择使用l1正则,l2正则,还是混合正则。
优化方法如下:

minimize(
    loss,
    global_step=None,
    var_list=None,
    gate_gradients=GATE_OP,
    aggregation_method=None,
    colocate_gradients_with_ops=False,
    name=None,∂
    grad_loss=None
)

论文中混合正则的逻辑所述如下:


SyncReplicasOptimizer

在一个典型的异步训练环境中,通常会有一些陈旧的梯度。例如,对于N个副本异步训练,梯度将独立地应用到变量N次。根据每个副本的训练速度,一些梯度可以从返回的几个步骤(平均N-1步)的变量副本中计算出来。这个优化器通过从所有副本中收集梯度,对它们进行平均,然后一次性将它们应用到变量中,从而避免了陈旧的梯度,在此之后,副本可以获取新的变量并继续执行。
使用方法

opt = GradientDescentOptimizer(learning_rate=0.1)
opt = tf.train.SyncReplicasOptimizer(opt, replicas_to_aggregate=50, total_num_replicas=50)
training_op = opt.minimize(loss, global_step=self.global_step)
sync_replicas_hook = opt.make_session_run_hook(is_chief)

参考文献

梯度下降法 https://zh.wikipedia.org/wiki/%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95
梯度下降小结 https://www.cnblogs.com/pinard/p/5970503.html
近端梯度下降(Proximal Gradient Descent)http://papers.nips.cc/paper/3793-efficient-learning-using-forward-backward-splitting.pdf
tensorflow 1.11官方 api https://www.tensorflow.org/api_docs/python/tf/train

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,635评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,543评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,083评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,640评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,640评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,262评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,833评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,736评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,280评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,369评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,503评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,185评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,870评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,340评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,460评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,909评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,512评论 2 359

推荐阅读更多精彩内容

  • 四月份的内蒙是比较极端的,它可以让你分分钟穿上棉袄也可以半袖不离身,人们也好像习惯了这个多变的女生,不抱怨也不...
    内蒙姑娘闪亮亮阅读 237评论 0 0
  • 秋天的怀想 那一个冬天,世界是洁白的,你拉着我的手,我们紧紧相依。 你一直存在我的世界里,纯洁如初,不管...
    鸣鸥阅读 192评论 0 4
  • 10.1-10.3 北京4D卓越团队领导力 查理大师亲授认证班 【感恩】 感谢查理老师和小蓉老师三天精彩的课程!...
    美丽天空阅读 625评论 1 2
  • 我们都错了,原来白娘子和法海才是一对 信任一词,相信每个人都是熟悉的吧,朋友之间,因为信任,才可以不论争吵,打闹...
    山有小格阅读 530评论 0 1