在线学习:从梯度截断到FTRL

什么是在线学习,为什么要用在线学习

在一些大型互联网公司的广告系统中,Logistic Regression的权重更新非常看重速度,否则无法应对超大规模的数据集和在线数据流,因此就不能再用传统的批量梯度更新方法。在线学习是根据新来的样本,一边学习,一边对样本进行预测,从而保证了模型的及时更新。在线更新算法主要为了减少在线更新的误差同时又保证参数的稀疏性。

Truncated Gradient

问题定义:

无优化约束描述:

soft regularization formulation,L1正则约束

Logistic Regression损失函数:

LR损失函数

相对于TG来说,两种传统的优化算法是Gradient Decsent和Stochastic Gradient Decsent。SGD每次只选择一个样本更新参数,但是没有考虑稀疏性。

简单截断

解决参数稠密问题,最简单粗暴的方法就是当参数矩阵W中某维参数w小于设定阈值时直接置为0,但是w数值比较小可能是因为迭代轮数小学习不充分,简单截断可能会丢失重要特征。

K是截断窗口的大小,窗口中的迭代正常进行。


简单截断更新公式
T0是分段函数

梯度截断

上面的简单截断法看上去十分 aggressive,TG则是对简单截断的一种改进,同样是以 k 作为窗口,每进行 k 步就进行一次截断操作:


梯度截断更新公式


T1是分段函数,cta是截断阈值,alpha是截断斜率

从上面的公式可以看出,\lambda ,\theta 决定了 W 的稀疏程度,如果\lambda \theta 都很大,那么稀疏性就会越强。


简单截断和梯度截断的对比

由上图可以看出选择\alpha =0,截断梯度法就可以变成简单截断法。从公式上也可以通过计算直接得出。

FOBOS(FORWARD-BACKWARD SPLITTING)

W^{(t+1)}=argmin_W{\{\frac {1}{2}||W-W^{(t)}+\eta^{(t)}G^{(t)} ||_2^2 +\eta^{(t+0.5)}\Psi (W)\}}

第一项2范数那项表示不能离loss损失迭代结果太远,第二项通常是正则化项(例如L1范数),用来限定模型复杂度、抑制过拟合和做稀疏化等。设:

F(W)=\frac {1}{2}||W-W^{(t)}+\eta^{(t)}G^{(t)} ||_2^2 +\eta^{(t+0.5)}\Psi (W)

那么Wt+1的最优解一定在F(W)的偏导集合中:

0 \in \partial F(W)= W-W^{(t)} + \eta^{(t)}G^{(t)}+\eta^{(t+0.5)}\partial \Psi(W)

进而得到另一种权重更新方式:

W^{(t+1)}=W^{(t)} - \eta^{(t)}G^{(t)}-\eta^{(t+0.5)}\partial \Psi(W)

RDA(Regularized Dual Averaging Algorithm)

RDA的特点是:相对FOBOS,在精度与稀疏性之间做平衡,其中实验表明,在L1正则下,RDA比FOBOS可以更加有效地得到稀疏解。

W^{(t+1)}=argmin_W{\{\frac {1}{t}\sum\nolimits_{r=1}^t G^{(r)}\cdot W + \Psi(W) + \frac{\beta^{(t)}}{t}h(W)\}}

公式中第一项表明前t轮所有梯度的均值作为了当前轮参数的稀疏,\psi (W)通常指L1范数||W||_1h(W)通常指L2范数\frac{1}{2}||W||_{2}^2  \beta^t=\gamma \sqrt{t}  (\gamma >0)是一个非负递增序列。自然地RDA的L1形式如下:

W^{(t+1)}=argmin_W{\{\frac {1}{t}\sum\nolimits_{r=1}^t G^{(r)}\cdot W + \lambda||W||_1 + \frac{\gamma}{2\sqrt{t}}||W||_2^2\}}

因此第t+1轮的参数矩阵中\omega _{i+1} (i\in [0,n-1])的更新方式如下:

\omega _{i+1}^{(t+1)}=argmin_{w_1}{\{\bar{g}_i^{(t)}+\lambda|\omega_i|+\frac{\gamma}{2\sqrt{t}}\omega_i^2 \}}

其中g_i^{(t)}=\frac{1}{t}\sum\nolimits_{r=1}^t g_i^{(r)}

经过推导证明,\omega _{i+1}可以表示成如下形式:

\omega_i^{(t+1)}=0, if |\bar{g}_i^{(t)}|<\lambda \\
\omega_i^{(t+1)}=-\frac {\sqrt t}{\gamma}(\bar{g}_i^{(t)}-\lambda\cdot sgn(\bar{g}_i^{(t)})),otherwise

意思就是:当某个维度的累加平均值小于\lambda 时,时,该维度的权重被设置成零,此时就可以产生特征权重的稀疏性。

RDA与FOBOS形式上的统一:

假设\eta ^{(t+0.5)}=\eta ^{(t)}=\Theta (t^{-0.5}),并带入到FOBOS-L1的权重更新公式中,可以得到:

W^{(t+1)}=argmin_W{\{||\frac {1}{2}W-W^{(t)}+\eta^{(t)}G^{(t)} ||_2^2 +\eta^{(t)}\lambda ||W||_1\}}

等式右边除以\eta ^{(t)}可以整理成如下形式:

W^{(t+1)}=argmin_W{\{G^{(t)}\cdot W+\lambda||W||_1 +\frac {1}{2\eta^{(t)}}||W-W^{(t)}||_2^2\}}

同时LDA-L1可以整理成:

W^{(t+1)}=argmin_W{\{G^{(1:t)}\cdot W +t\lambda||W||_1 +\frac {1}{2\eta^{(t)}}||W-0||_2^2\}}

其中G^{(1:t)}=\sum_{s=1}^tG^{(s)},如果令:\sigma^{(s)}=\frac {1}{\eta^{(s)}}-\frac {1}{\eta^{(s-1)}},\sigma^{(1:t)}=\frac {1}{\eta^{(s)}},\sigma^{(1:t)}=\sum_{s=1}^t\sigma ^{(s)}

上面的公式可以写成:

FOBOS:

W^{(t+1)}=argmin_W{\{G^{(t)}\cdot W +\lambda||W||_1 +\frac {1}{2} \sigma^{(1:t)}||W-W^{(t)}||_2^2\}}

RDA:

W^{(t+1)}=argmin_W{\{G^{(1:t)}\cdot W +t\lambda||W||_1 +\frac {1}{2} \sigma^{(1:t)}||W-0||_2^2\}}

从公式上来看,

FTRL

FTRL同时借鉴了RDA和FPBOS的思想

用公式表达就是

W^{(t+1)}=argmin_W{\{G^{(1:t)}\cdot W +\lambda||W||_1 +\frac {1}{2} \sigma^{(1:t)}||W-W^{(t)}||_2^2\}}

可以看出,既用到了RDA的前t轮梯度均值,又用到了保证每次迭代权重不会变化太多。

FTRL求解过程如下:

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容