Distributed On-Device LLM Inference With Over-the-Air Computation
这篇文章针对张量并行的all-reduce操作,通过多波束的叠加以及空中计算实现多设备信息的快速聚合。
优化目标是快速聚合的信息与标准信息mse最小,约束条件为计算功耗以及通信功耗,再加上模型分割的总和是1。
传统方法整体来说都是在设备上升到8个的时候,因为设备通信的问题导致推理速度变慢了,它这个方法确实能极大程度的减少通信,而且对模型精度造成影响的来源因该是通信误差。
感觉是两个赛道的问题,这不是通信机制的改变,仍然是全通信。