4D并行负载平衡

WLB-LLM: Workload-Balanced 4D Parallelism for Large Language Model Training

这篇分析了工作负载不平衡的来源。输入的sequence是由不同的文本构成的,所以对于同样长度的sequence,文本的长度可以不同。因为attention mask的原因,长文本的尾部token需要大量的计算,这就是导致同长度序列计算开销不同的原因。

这种问题在4D并行中更为明显,现有的分配方式是平均分相同数量的token,没有考虑上面原因导致的计算量异构。
比较简单的一种想法是混合起来一起重构,就像上面右边的图一样。但是这样是跨多个batch在混合重构,一个是效率不太行,另外打乱了原本训练集的随机性,导致收敛出现问题。

文章的想法就是保证计算的均衡并尽量不影响模型的收敛。
把短的文档拼接在一起来匹配长文档。
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容