张逸宸 14020199023
【嵌牛导读】周志华团队提出无分布学习算法
【嵌牛鼻子】无分布学习 DFOP 深度学习
【嵌牛提问】这种算法的优越性?
论文地址:https://arxiv.org/abs/1706.02471
在许多大规模机器学习应用中,数据会随着时间而累积,因此,一个合适的模型应当能以一种在线的范式而进行更新。此外,因为在构建模型时,总的数据量是未知的,因此人们希望使用独立于数据量的存储来对每个数据项进行仅一次的扫描。另外值得注意的是在数据累积过程中,其基础分布可能会发生改变。为了应对这样的任务,在这篇论文中,周老师团队提出了 DFOP——无分布一次通过学习方法(distribution-free one-pass learning approach)。这种方法在数据累积过程中分布发生变化时效果良好,且无需有关该变化的先验知识。每个数据项一旦被扫描后就可以被抛弃了。此外,理论保证(theoretical guarantee)也表明在一个轻微假设下的估计误差(estimate error)会下降,直到高概率地收敛。
具体算法如下:
实验结果:
图 1: 在合成数据集上,7 种方法在 holdout 精确度方面的表现对比。左边是全部的 7 种方法;为了清晰,右边只绘制了 RLS、DWM 和 DFOP。
图 2 :在带有分布变化的 4 个数据集上使用不同的遗忘因子的累积精确度