文章的内容基本是参考TensorFlow官网https://www.tensorflow.org/install/docker上的指南来做的,甚至很多语句都是这上面的原句子。
Docker 使用容器创建虚拟环境,以便将 TensorFlow 安装结果与系统的其余部分隔离开来。TensorFlow 程序在此虚拟环境中运行,该环境能够与其主机共享资源(访问目录、使用 GPU、连接到互联网等)。TensorFlow官网会针对每个版本测试 TensorFlow Docker 映像。
Docker 是在 Linux 上启用 TensorFlow GPU 支持的最简单方法,因为只需在主机上安装 NVIDIA® GPU 驱动程序,而不必安装 NVIDIA® CUDA® 工具包。
TensorFlow Docker 要求:
- 在本地主机上安装 Docker。
- 要在 Linux 上启用 GPU 支持,请安装 NVIDIA Docker 支持。
- 请通过
docker -v
检查 Docker 版本。对于 19.03 之前的版本,您需要使用 nvidia-docker2 和--runtime=nvidia
标记;对于 19.03 及之后的版本,您将需要使用nvidia-container-toolkit
软件包和--gpus all
标记。这两个选项都记录在上面链接的网页上。
- 请通过
在本地主机上安装 Docker
参见ubuntu16.04安装Docker-华为荣耀MagicBook Pro,我在ubuntu18.04上也是同样的安装过程。
启用GPU支持
Docker 是在 GPU 上运行 TensorFlow 的最简单方法,因为主机只需安装 NVIDIA® 驱动程序,而不必安装 NVIDIA® CUDA® 工具包。
安装NVIDIA驱动程序
我在ubuntu18.04安装CUDA、cuDNN-华为MagicBook Pro中完成了这一个工作。
安装 Nvidia 容器工具包以向 Docker 添加 NVIDIA® GPU 支持
步骤参考了 Nvidia 容器工具包页面的指南。我是在自己的电脑上第一次使用Docker 19.03和GPU,采用的是如下的安装过程。
# Add the package repositories
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker
在sudo apt update
的时候出现了如下错误:
Err:5 https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu1804/x86_64 InRelease
Clearsigned file isn't valid, got 'NOSPLIT' (does the network require authentication?)
Reading package lists... Done
E: Failed to fetch http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/InRelease Clearsigned file isn't valid, got 'NOSPLIT' (does the network require authentication?)
E: The repository 'http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64 InRelease' is no longer signed.
N: Updating from such a repository can't be done securely, and is therefore disabled by default.
N: See apt-secure(8) manpage for repository creation and user configuration details.
我没有管它
检查GPU是否可用
lspci | grep -i nvidia
输出内容为
02:00.0 3D controller: NVIDIA Corporation Device 1d13 (rev a1)
应该是可用的意思吧。
验证 nvidia-docker 安装效果
docker run --gpus all --rm nvidia/cuda:10.0-base nvidia-smi
通过这个验证我发现nvidia-smi
命令中显示的CUDA Version为10.2,但是使用cat /usr/local/cuda/version.txt
和cat /usr/local/cuda-10.0/version.txt
显示为CUDA Version 10.0.130
。奇怪。
启动 TensorFlow Docker 容器
要启动配置 TensorFlow 的容器,请使用以下命令格式:
docker run [-it] [--rm] [-p hostPort:containerPort] tensorflow/tensorflow[:tag] [command]
有关详情,请参阅 Docker 运行参考文档。
下面是我下载并使用运行支持GPU的TensorFlow的过程
下载 TensorFlow Docker 映像
从网站https://hub.docker.com/r/tensorflow/tensorflow/tags上下载自己需要的版本的镜像,比如,我需要的是1.10.0版本、支持GPU、支持python3的镜像,那么我下载的镜像的tag是1.10.0-gpu-py3
,下载命令为:
docker pull tensorflow/tensorflow:1.10.0-gpu-py3
运行镜像
docker run --gpus all -it --rm tensorflow/tensorflow:1.10.0-gpu-py3 python -c "import tensorflow as tf; print(tf.reduce_sum(tf.random_uniform([1000, 1000])))"
输出为
Tensor("Sum:0", shape=(), dtype=float32)
应该表示运行成功。
至此结束。