hovorod是一个分布式深度学习框架,可以集成在tensorflow、keras、pytorch中。
参考:https://github.com/horovod/horovod#install
0. 安装环境
- ubuntu 18.04
- cuda10.1
1. 安装openmpi
https://www.open-mpi.org/software/ompi/v4.0/
在上面地址中下载openmpi-4.0.3.tar.gz,然后按照下面命令安装
gunzip -c openmpi-4.0.3.tar.gz | tar xf -
cd openmpi-4.0.3
./configure --prefix=/usr/local
<...lots of output...>
make all install
<...lots of output...>
sudo ldconfig
2. 安装nccl
https://developer.nvidia.com/nccl/nccl-download
首先需要注册nvidia账户,做一个问卷,然后根据自己的系统以及cuda版本选择对应的local安装包,我选择的是nccl v2.5.6 for cuda10.1 for Ubuntu 18.04
sudo dpkg -i nccl-repo-ubuntu1804-2.5.6-ga-cuda10.1_1-1_amd64.deb
3. 安装horovod
安装命令:
OROVOD_GPU_ALLREDUCE=NCCL HOROVOD_GPU_BROADCAST=NCCL pip install horovod