背景
我想在docker中部署深度学习的模型,而且服务器的环境无法联网。深度学习框架需要使用gpu,但是docker 只能使用 cpu,没有挂载gpu。
我在网上查到 docker run 启动容器的时候,加上 --gpu可使用gpu。我测试后发现报错
docker run -v $(pwd):/workspace/data --gpus all -it voidful/wav2vec-u:1.0.0 bash
#报了下面的错误
could not select device driver "" with capabilities: [[gpu]].
ERRO[0000] error waiting for container: context canceled
搜索之后发现,docker需要添加nvidia相关工具包
1. docker 使用nvidia工具包分类
docker所需nvidia工具包分类
参考:将nvidia添加到runtime
要使docker容器能调用本地的gpu,有三种方法:
一是,安装nvidia-docker,该方法已被官方舍弃
地址为https://github.com/NVIDIA/nvidia-docker#upgrading-with-nvidia-docker2-deprecated
二是,安装nvidia-container-toolkit,又名nvidia-docker2,后添加—gpus参数来使用
安装:
https://github.com/NVIDIA/nvidia-docker#ubuntu-16041804-debian-jessiestretchbuster
使用:
https://github.com/NVIDIA/nvidia-docker#usage
三是,安装nvidia-container-runtime,在首次运行时添加—runtime=nvidia参数,后续启动、结束都不需要再加。【推荐】
优点:docker19.03之后,不再需要安装nvidia-docker了。只安装NVIDIA-CONTAINER-RUNTIME就可以使用了,并且支持docker-compose。
官方地址为:https://nvidia.github.io/nvidia-container-runtime/
2. 探索安装
参考:docker19使用GPU
centos 7 安装nvidia-container-runtime
下载GPU的驱动
在NVIDIA驱动程序页面下载对应的驱动。
安装NVIDIA-CONTAINER-RUNTIME
在https://nvidia.github.io/nvidia-container-runtime/查看支持的操作系统和版本,并根据对应选项,添加源,因为我是centos7,所以添加方式为:
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-container-runtime/$distribution/nvidia-container-runtime.repo | \
sudo tee /etc/yum.repos.d/nvidia-container-runtime.repo
然后直接yum install 就可以了
sudo yum install nvidia-container-runtime
进行测试,如果出现显卡信息就可以了
docker run -it --rm --gpus all centos nvidia-smi
3. 解决服务器无法联网的问题
1.磨刀砍柴
严格模式:两台同样配置,同样环境的服务器、例如:gcc cuda cmake版本等都完全相同
简单模式:两台安装了相同版本系统的服务器,例如我的两台都是centos 7
这里我使用了简单模式,因为复杂模式太过复杂
我的一台为实验室服务器 (目标机)一台为租用的腾讯云(借用机)
2.借鸡生蛋
以下操作在腾讯云(借用机)中执行:
添加源 repo
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-container-runtime/$distribution/nvidia-container-runtime.repo | \
sudo tee /etc/yum.repos.d/nvidia-container-runtime.repo
接下来需要从源去下载rpm包,但不进行安装
参考:yum 下载全量依赖 rpm 包及离线安装(终极解决方案)
所以下载nvidia软件包全部依赖
#yum deplist 包名
yum deplist nvidia-container-runtime
#展示包的全部依赖
sudo yum -y install yum-utils
#安装 yum-utils
mkdir ~/software_packages
cd ~/software_packages
repotrack nvidia-container-runtime
#此时会将软件的所有依赖包下载到 ~/software_packages
这时候将 ~/software_packages 下的文件打包下载
cd ~
tar -zcvf software_packages.tar.gz ~/software_packages
3.斗转星移
此时,登录实验室服务器(目标机),上传刚刚打包的文件,进行解压
rz
tar -zxvf software_packages.tar.gz ~/software_packages
进入解压的目录离线安装,一定要选择 采用 *.rpm的方式,会自动解决依赖
cd ~/software_packages
# 离线安装
$ rpm -Uvh --force --nodeps *.rpm
4. 启动docker 容器
docker run -v $(pwd):/workspace/data --gpus all \
-it voidful/wav2vec-u:1.0.0 bash
#成功启动container
#进入container后输入,nvidia-smi
nvidia-smi
#成功显示显卡信息