pytorch/paddlepaddle框架单机多卡运行卡住解决方案

在使用pytorch或paddlepaddle的时候会出现分布式多卡运行卡住的问题，下面是我的2种解决方案：
1.pytorch多卡运行卡住
解决方案：通信库将nccl换为gloo

    # dist.init_process_group(backend='nccl')
    dist.init_process_group(backend='gloo')

2.paddlepaddle多卡运行卡住
由于paddlepaddle对gloo的支持不友好，目前无法使用gloo分布式训练，所以我们可以这样这样做：在代码运行之前，输入：

export NCCL_P2P_LEVEL=NVL

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

人工智能教学解决方案
第一章发展背景当今，世界无时无刻不在发生着变化。对于技术领域而言，普遍存在的一个巨大变化就是为大数据（Big ...
00d34451b19b阅读 1,071评论 0赞 0
AI教学实训整体解决方案
第一章发展背景当今，世界无时无刻不在发生着变化。对于技术领域而言，普遍存在的一个巨大变化就是为大数据（Big ...
00d34451b19b阅读 615评论 0赞 0
MegaScale: Scaling Large Language Model Trainin...
一、为什么要万卡训练集群：大语言模型贼牛逼这个就不强调了哈，机器翻译，人机会话表现出巨大潜力和应用价值。模型大小...
爱串门的小马驹阅读 190评论 0赞 0
这可能是史上最全 Redis 高可用解决方案总结
一、常见使用方式 Redis 的几种常见使用方式包括： Redis 单副本； Redis 多副本（主从）； Red...
java成功之路阅读 558评论 0赞 4
阿里云上云解决方案汇总，多种技术与行业解决方案助力企业上云
阿里云有上云解决方案吗？当然是有的，阿里云发布的技术解决方案-最佳实践，是基于众多客户上云的成功案例萃取而成的最优...
阿里云最新优惠和活动汇总阅读 1,370评论 0赞 1

赞1赞

赞赏

手机看全文