1. Abstract
- 新的训练DNN的方法
- 保证理论正确的收敛性,实践中扩展性很好
- 收敛性证明有:layerwise convergence和convergence of weights in probability
2. Introduction
2.1. DNN存在的问题
- 目标函数通常是非凸的。需要合并所有层的权重为一个大的参数,然后使用SGD,很少有从layerwise的角度分析
- DNN训练很慢,现在的启发式并行方法缺少收敛性的理论证明
2.2 Main contribution
- 将BP算法对DNN的分析扩展到layerwise,new insights 例如layerwise contraction
- build了一个扩展性好的分布式深度学习方法
- 提供在分布式SSP模式下DNN的收敛性证明
3. Related work
3.1. BP的收敛性
- Backpropagation convergence via deterministic nonmonotone perturbed minimization. 分析了BP的收敛性,证明了在随机假设下,BP产生的权重diverge或者converge到一个稳定点
- Converegnce properties of backpropagation for neural nets via theory of stchastic gradient methods. 与上面类似,但是是随机梯度BP。这两者都没有提高layerwise的分析
- Some asymptotic results for learning in single hidden-layer feedforward network models. 提供了layerwise的分析,但是将多层参数合并成一个隐藏层
3.2. Scale DNN
- A provably e�cient algorithm for training deep networks. 提出了一种有效的算法来建立和训练有监督的深度网络,有理论证明
- Building high-level features using large scale unsupervised learning. 模型并行DNN,DNN的每层被切分到不同的机器,L-BFGS的分布式实现,但是没有理论证明
- 使用GPU加速:Large-scale deep unsupervised learning using graphics processors.
- 使用GPU+CPU:Large-scale deep learning at baidu.
3.3. 缺点
- 局限在一些领域
- 理论分析restricted to small setting: limited analysis, 非分布式, 不可扩展, 没有比较不同的分布式方法
4. Background
4.1. SSP
选择SSP的原因:
- SSP是工业级的semi-synchronous(半同步)分布式学习框架,同时有理论保证
- 在系统性能和准确性之间取得了平衡
5. Problem formulation
- 残差的链式规则,chain rule
- 每个机器保存所有参数,数据平均切分,每个机器独立训练,同时满足SSP条件
缺点
- SSP based DNN的缺点是只能数据并行
- 没有模型并行