EASGD-简单介绍

EASGD
from:http://joerihermans.com/ramblings/distributed-deep-learning-part-1-an-introduction/
这种算法每次迭代完成后会将worker的平均扔给全局参数,worker自己更新的时候除了要更新梯度,还要考虑全局参数

worker与server更新的公式

不同大小的ρ(弹性系数)所带来的影响

  • 不像downpour有很多通信窗.
  • 因为较长时间才和ps通信一次,worker有机会去探索临近的参数空间
  • 作者反驳:只有worker的参数在central variable(ps维护的参数)附近时这才是有用的,但是EASGD并没有和central variable 进行同步,因此EASGD是否能够较好的收敛我们还要打个问号❓
  • worker覆盖不同的参数空间时会导致不收敛.
  • ρ (elasticity parameter 弹性参数)太小时,也就是说与central variable的联系更加松时,每个worker将探索自己的参数空间,可能导致模型的不收敛(公式2)
  • 解决办法是:满足某个条件后就只更新梯度,不算别的
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容