2024-03-11 流水线并行(2019)

流水线并行

中间的bubble是 向前传播以后,等向后传播的时间。越是靠前的层次等得越久。

image.png

张量并行

优点是没有bubble浪费。缺点是需要针对不同网络结构不同设计。

Cons: Different blocks are better split differently, lots of customizations

需要的通信:All-gather of partial activations and gradients for each split tensor(所有激活、梯度都要全部汇集)

两者也可以结合用

(2021)

参考

Scaling Up LLM Pretraining: Parallel Training
Chenyan Xiong
11-667

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容