在使用pytorch或paddlepaddle的时候会出现分布式多卡运行卡住的问题,下面是我的2种解决方案:
1.pytorch多卡运行卡住
解决方案:通信库将nccl换为gloo
# dist.init_process_group(backend='nccl')
dist.init_process_group(backend='gloo')
2.paddlepaddle多卡运行卡住
由于paddlepaddle对gloo的支持不友好,目前无法使用gloo分布式训练,所以我们可以这样这样做:在代码运行之前,输入:
export NCCL_P2P_LEVEL=NVL