pytorch/paddlepaddle框架单机多卡运行卡住解决方案

在使用pytorch或paddlepaddle的时候会出现分布式多卡运行卡住的问题,下面是我的2种解决方案:
1.pytorch多卡运行卡住
解决方案:通信库将nccl换为gloo

    # dist.init_process_group(backend='nccl')
    dist.init_process_group(backend='gloo')

2.paddlepaddle多卡运行卡住
由于paddlepaddle对gloo的支持不友好,目前无法使用gloo分布式训练,所以我们可以这样这样做:在代码运行之前,输入:

export NCCL_P2P_LEVEL=NVL
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容