EASGD-简单介绍

EASGD
from:http://joerihermans.com/ramblings/distributed-deep-learning-part-1-an-introduction/
这种算法每次迭代完成后会将worker的平均扔给全局参数,worker自己更新的时候除了要更新梯度,还要考虑全局参数

worker与server更新的公式

不同大小的ρ(弹性系数)所带来的影响

不像downpour有很多通信窗.
因为较长时间才和ps通信一次,worker有机会去探索临近的参数空间
作者反驳:只有worker的参数在central variable(ps维护的参数)附近时这才是有用的,但是EASGD并没有和central variable 进行同步,因此EASGD是否能够较好的收敛我们还要打个问号❓
worker覆盖不同的参数空间时会导致不收敛.
ρ (elasticity parameter 弹性参数)太小时,也就是说与central variable的联系更加松时,每个worker将探索自己的参数空间,可能导致模型的不收敛(公式2)
解决办法是:满足某个条件后就只更新梯度,不算别的

最后编辑于：2018.09.25 21:20:36

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

赞1赞

赞赏

手机看全文