其实安装部署的办法有很多种,这里记录的是经过我本人亲自验证通过的一种办法。
1、首先安装一个干净的 Ubuntu 20.04.2.0,注意在安装时不要选择“为图形或者无线硬件,以及其它媒体格式安装第三方软件”,否则安装完毕后,可能会进不去系统。
2、安装Anaconda,https://www.anaconda.com/products/individual#Downloads,之所以先装anaconda主要是是为了顺带安装gcc。
3、CUDA11.1.1,按照官网提示安装即可。注意,官网提供的cuda自带显卡驱动455.32.00,所以不需要先安装显卡驱动,只要严格按照官网的提示把CUDA装上,显卡驱动自然就会装好。注意,我在安装CUDA11.1以前的老版本时,一直是安装失败。
https://developer.nvidia.com/cuda-11.1.1-download-archive?target_os=Linux&target_arch=x86_64&target_distro=Ubuntu&target_version=2004&target_type=deblocal
装好之后,还需要改一下环境变量:
sudo vim .bashrc
加入下面环境变量后保存退出。
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.1/lib64
export PATH=$PATH:/usr/local/cuda-11.1/bin
export CUDA_HOME=/usr/local/cuda-11.1
source ~/.bashrc
4、安装cudnn,地址:https://developer.nvidia.com/rdp/cudnn-download,必须注册登录才可下载,我选的是
Download cuDNN v8.0.5 (November 9th, 2020), for CUDA 11.1里的 cuDNN Runtime Library for Ubuntu20.04 x86_64 (Deb),其他的版本没试过
下载后,直接sudo dpkg -i libcudnn8_8.0.5.39-1+cuda11.1_amd64.deb即可。
重启电脑后,检查显卡驱动是否正常工作,可以用nvidia-smi命令
5、安装tensorflow,这里用的清华镜像。
pip install tensorflow-gpu --upgrade -i https://pypi.tuna.tsinghua.edu.cn/simple some-package
6、输入 python,进入python环境,然后输入
import tensorflow as tf
tf.config.list_physical_devices(‘GPU’)
此时可能会提示缺少 libcusolver.so.10(我在安装的时候有一次没有遇到这个错误,原因不明),解决办法是把 libcusolver.so.11 复制并改名为 libcusolver.so.10,简单粗暴,貌似也确实管用。参考命令如下:
cd /usr/local/cuda-11.1/lib64
sudo cp libcusolver.so.11 libcusolver.so.10
此时再去测试tf2.4,显卡就可以正常加载了。