1、检查tensorflow、cuda、cudnn的版本一致性
windows
linux
pytorch 可以忽略,只需要保证cuda和cudnn匹配即可。
2、下载适配版本cuda和cudnn,cuda包含显卡驱动
cuda
cudnn
下载cuda和cudnn相应的版本到服务器上,cuda建议下载run(local)文件,cudnn建议下载tar文件,不建议deb文件
此文章配置的服务器为ubuntu server 18.04.2,配置的tensorflow为r1.13,cuda版本10.0,cudnn支持的最新版本7.4.2
3、安装编译工具
sudo apt-get install gcc g++ make
4、安装cuda
cd /path/to/your-cuda-file
sudo chmod +x cuda-file.run
sudo ./cuda-file.run
#1 accpet
#2 nvidia driver、cuda和soft link 安装选yes,其他根据需要
#cuda default located in /usr/local/cuda-10.0, and soft link is /usr/local/cuda/
#3 卸载驱动使用nvidia-uninstall
5、安装cudnn
复制文件
#使用tar文件安装
cd /path/to/your-cudnn-file
sudo tar -xzvf cudnn-9.0-linux-x64-v7.tgz
sudo cp cuda/include/cudnn.h /usr/local/cuda/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*
#把cudnn对应的dll/so文件放在cuda的目录下,就算cuann配置好
#或者使用deb安装
sudo dpkg -i libcudnn7_7.0.3.11-1+cuda9.0_amd64.deb
sudo dpkg -i libcudnn7-devel_7.0.3.11-1+cuda9.0_amd64.deb
sudo dpkg -i libcudnn7-doc_7.0.3.11-1+cuda9.0_amd64.deb
设置环境变量
export PATH=/usr/local/cuda/bin${PATH:+:${PATH}}
# 64bit
export LD_LIBRARY_PATH=/usr/local/cuda/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
# 32bit
export LD_LIBRARY_PATH=/usr/local/cuda/lib${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
# 加入~/.bashrc最后两行
sudo vim ~/.bashrc
# 重新激活环境
source ~/.bashrc
# 更好的办法,更新链接库
sudo rm /usr/local/cuda/lib64/libcudnn.so.7
sudo ln -s /usr/local/cuda/lib64/libcudnn.so /usr/local/cuda/lib64/libcudnn.so.7
sudo ldconfig /usr/local/cuda/lib64
6、安装pytorch/tensorflow-gpu并进行测试
cuda/
#python3
import torch
torch.cuda.is_available()
orch.cuda.device_count()
#or
import tensorflow as tf
tf.test.is_built_with_cuda()
tf.test.is_gpu_available(cuda_only=False, min_cuda_compute_capability=None)