2022-06-15 docker 使用gpu

背景

我想在docker中部署深度学习的模型,而且服务器的环境无法联网。深度学习框架需要使用gpu,但是docker 只能使用 cpu,没有挂载gpu。

我在网上查到 docker run 启动容器的时候,加上 --gpu可使用gpu。我测试后发现报错

docker run -v $(pwd):/workspace/data --gpus all -it voidful/wav2vec-u:1.0.0 bash
#报了下面的错误
could not select device driver "" with capabilities: [[gpu]].
ERRO[0000] error waiting for container: context canceled 

搜索之后发现,docker需要添加nvidia相关工具包

1. docker 使用nvidia工具包分类

docker所需nvidia工具包分类
参考:将nvidia添加到runtime

要使docker容器能调用本地的gpu,有三种方法:

一是,安装nvidia-docker,该方法已被官方舍弃
地址为https://github.com/NVIDIA/nvidia-docker#upgrading-with-nvidia-docker2-deprecated

二是,安装nvidia-container-toolkit,又名nvidia-docker2,后添加—gpus参数来使用
安装:
https://github.com/NVIDIA/nvidia-docker#ubuntu-16041804-debian-jessiestretchbuster
使用:
https://github.com/NVIDIA/nvidia-docker#usage

三是,安装nvidia-container-runtime,在首次运行时添加—runtime=nvidia参数,后续启动、结束都不需要再加。【推荐】

优点:docker19.03之后,不再需要安装nvidia-docker了。只安装NVIDIA-CONTAINER-RUNTIME就可以使用了,并且支持docker-compose。
官方地址为:https://nvidia.github.io/nvidia-container-runtime/

2. 探索安装

参考:docker19使用GPU
centos 7 安装nvidia-container-runtime

下载GPU的驱动
在NVIDIA驱动程序页面下载对应的驱动。

安装NVIDIA-CONTAINER-RUNTIME
https://nvidia.github.io/nvidia-container-runtime/查看支持的操作系统和版本,并根据对应选项,添加源,因为我是centos7,所以添加方式为:

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-container-runtime/$distribution/nvidia-container-runtime.repo | \
sudo tee /etc/yum.repos.d/nvidia-container-runtime.repo

然后直接yum install 就可以了

sudo yum install nvidia-container-runtime

进行测试,如果出现显卡信息就可以了

docker run -it --rm --gpus all centos nvidia-smi

3. 解决服务器无法联网的问题

1.磨刀砍柴

严格模式:两台同样配置,同样环境的服务器、例如:gcc cuda cmake版本等都完全相同
简单模式:两台安装了相同版本系统的服务器,例如我的两台都是centos 7

这里我使用了简单模式,因为复杂模式太过复杂

我的一台为实验室服务器 (目标机)一台为租用的腾讯云(借用机)

2.借鸡生蛋

以下操作在腾讯云(借用机)中执行:
添加源 repo

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-container-runtime/$distribution/nvidia-container-runtime.repo | \
sudo tee /etc/yum.repos.d/nvidia-container-runtime.repo

接下来需要从源去下载rpm包,但不进行安装
参考:yum 下载全量依赖 rpm 包及离线安装(终极解决方案)

所以下载nvidia软件包全部依赖

#yum deplist 包名
yum deplist nvidia-container-runtime
#展示包的全部依赖

sudo yum -y install yum-utils
#安装 yum-utils
mkdir ~/software_packages
cd ~/software_packages
repotrack nvidia-container-runtime
#此时会将软件的所有依赖包下载到 ~/software_packages

这时候将 ~/software_packages 下的文件打包下载

cd ~
tar -zcvf software_packages.tar.gz ~/software_packages

3.斗转星移

此时,登录实验室服务器(目标机),上传刚刚打包的文件,进行解压

rz
tar -zxvf software_packages.tar.gz ~/software_packages

进入解压的目录离线安装,一定要选择 采用 *.rpm的方式,会自动解决依赖

cd ~/software_packages
# 离线安装
$ rpm -Uvh --force --nodeps *.rpm

4. 启动docker 容器

docker run -v $(pwd):/workspace/data --gpus all \
-it voidful/wav2vec-u:1.0.0 bash
#成功启动container
#进入container后输入,nvidia-smi
nvidia-smi
#成功显示显卡信息
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容