240 发简信
IP属地:河南
  • 120
    docker容器中deepspeed多机多卡集群分布式训练大模型

    众所周知,大模型的训练需要大量的显存资源,单卡很容易就爆了,于是就有了单机多卡、多机多卡的训练方案。本文主要是介绍如何使用deepspeed框架做多机多卡的分布式训练。 由于...