ai 网络基础知识简单记录

背景

AI(尤其是大模型)训练的对网络要求非常高,对延迟和丢包非常敏感,任意微小的拥塞丢包或者排队延迟都会导致整个gpu集群等待,意味着算力闲置且降低效率,而gpu集群的成本是非常高昂的.

介绍

网络架构

现在一般都是spine leaf

leaf 作为gpu服务器的接入层
spine 作为连接leaf的核心层

优势

可预测的路径与延迟
无阻塞高带宽低延迟
弹性可扩展(加leaf和spine)

有时也会用到新增一个super spine层,用于连接多个spine-leaf(spine链接super spine),形成一个更大的网络.

收敛比

leaf链接gpu服务器的端口总带宽需要尽量小于等于leaf链接spine的端口总带宽
也就是常说的收敛比1:1,意味着leaf链接gpu服务器的端口总带宽需要尽量等于leaf链接spine的端口总带宽
如果每个端口带宽都相等,总带宽比就是等于端口数量比(leaf链接gpu服务器的端口数量比leaf链接spine的端口数量)

当收敛比大于1:1时(比如2:1),在满负荷运作时候,是会存在阻塞的,导致整个gpu集群等待,意味着算力闲置且降低效率,而gpu集群的成本是非常高昂的.

rdma

常提到的就是roce/ib

优势

绕过内核,高效网络通信
几乎无需cpu参与(零拷贝)
无损网络(roce依赖PFC和ECN)
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容