针对all-reduce的优化

Distributed On-Device LLM Inference With Over-the-Air Computation

这篇文章针对张量并行的all-reduce操作,通过多波束的叠加以及空中计算实现多设备信息的快速聚合。
优化目标是快速聚合的信息与标准信息mse最小,约束条件为计算功耗以及通信功耗,再加上模型分割的总和是1。



传统方法整体来说都是在设备上升到8个的时候,因为设备通信的问题导致推理速度变慢了,它这个方法确实能极大程度的减少通信,而且对模型精度造成影响的来源因该是通信误差。
感觉是两个赛道的问题,这不是通信机制的改变,仍然是全通信。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容