背景
AI(尤其是大模型)训练的对网络要求非常高,对延迟和丢包非常敏感,任意微小的拥塞丢包或者排队延迟都会导致整个gpu集群等待,意味着算力闲置且降低效率,而gpu集群的成本是非常高昂的.
介绍
网络架构
现在一般都是spine leaf
leaf 作为gpu服务器的接入层
spine 作为连接leaf的核心层
优势
可预测的路径与延迟
无阻塞高带宽低延迟
弹性可扩展(加leaf和spine)
有时也会用到新增一个super spine层,用于连接多个spine-leaf(spine链接super spine),形成一个更大的网络.
收敛比
leaf链接gpu服务器的端口总带宽需要尽量小于等于leaf链接spine的端口总带宽
也就是常说的收敛比1:1,意味着leaf链接gpu服务器的端口总带宽需要尽量等于leaf链接spine的端口总带宽
如果每个端口带宽都相等,总带宽比就是等于端口数量比(leaf链接gpu服务器的端口数量比leaf链接spine的端口数量)
当收敛比大于1:1时(比如2:1),在满负荷运作时候,是会存在阻塞的,导致整个gpu集群等待,意味着算力闲置且降低效率,而gpu集群的成本是非常高昂的.
rdma
常提到的就是roce/ib
优势
绕过内核,高效网络通信
几乎无需cpu参与(零拷贝)
无损网络(roce依赖PFC和ECN)