笔记本配置:
联想拯救者系列i7,显卡960M,16G内存,400G固态
选择cuda和cudnn版本需要先看下注意事项的第一条!
目录
I.安装NVIDIA显卡驱动
II.安装多版本的CUDA
III.安装多版本的cudnn
IV.多个CUDA版本切换
V.安装pytorch
VI.注意事项
I.安装NVIDIA显卡驱动
0 下载驱动
去官网下载驱动run文件,我下载的驱动版本为440.82
1 禁用nouveau
1.1 进入blacklist,sudo gedit /etc/modprobe.d/blacklist.conf
1.2 在最后一行添加,blacklist nouveau
1.3 更新设置,sudo update-initramfs -u
1.4 重启,reboot
2 关闭安全启动
按F2进入BIOS,关闭安全启动(必须关闭,否则无法安装成功,而且安装成功后也必须关闭,否则无法正常使用驱动)
3 安装驱动
重启进入ubuntu的GUI界面后,按Ctrl+Alt+F1进行命令行终端界面
3.1 确认nouveau关闭,lsmod | grep nouveau
,命令行无任何输出即可
3.2 关闭图形界面,sudo /etc/init.d/lightdm stop
3.3 给驱动run文件赋予执行权限,sudo chmod a+x NVIDIA-Linux-x86_64-440.82.run
3.4 安装,sudo ./NVIDIA-Linux-x86_64-440.82.run -no-opengl-files
–no-opengl-files
表示只安装驱动文件,不安装OpenGL文件。这个参数不可省略,否则会导致登陆界面死循环
3.5 根据环境选择安装选项(关键)
有的博客写到还需要提前装一些lib库,我的建议是先裸奔装,失败了再重新装这些lib库就行,直接进入3.5.1安装!
以下是选项的回答(yes or no)
3.5.1 Register the Kernel module sources with DKMS?
回答:如果gcc是5.4版本选择yes,否则选择no,编译DKMS需要GCC5.4编译,所以我这里选择no
3.5.2 Install NviDia' 32-bit libraries?
回答:Yes
3.5.3 ... is competed!
安装完成
3.5.4 如果这里失败了,需要卸载干净再重新安装从3.1步骤开始
sudo apt-get remove --purge nvidia*
sudo ./NVIDIA-Linux-x86_64-440.82.run --uninstall
3.5.5 如果仍然失败,再重新试试几次!!!可能再试几次就可以了!!!!!
3.5.6 如果多次安装仍然不行,则需要考虑安装一些库,需要自己根据实际情况google下.
sudo apt-get update
sudo apt-get install dkms build-essential linux-headers-generic
3.6 在命令行界面安装完成后,检测是否成功安装,nvidia-smi
,有输出即可.
3.7 打开图形界面(这里不能直接reboot,得先回到图形界面),sudo /etc/init.d/lightdm start
3.8 在图形界面中再次检测是否成功安装,nvidia-smi
,有输出即为安装成功(这里可以看到有显示cuda为10.2但其实好像并不不影响后面的cuda安装),以后都需要关闭bios的安全启动
,否则NVIDIA驱动都会被屏蔽
II.安装多版本的CUDA
由于不同项目的环境不同, 需要安装多个版本的CUDA
1 先去官网下载CUDA10.0和10.1,注意是.run
文件,不是.deb
。
2 CUDA10.1的安装
注意,在cuda10.1安装界面与cuda10.0不同
2.1 给可执行权限,sudo chmod a+x cuda_10.1.105_418.39_linux.run
2.2 然后运行安装,sudo ./cuda_10.1.105_418.39_linux.run
,提示阅读,一直按住enter即可,在第一个选项那里会停住
2.3 accpet
接受协议
2.4 勾选界面,不要选择安装驱动即可
2.5 安装成功界面
这样就已经安装好了,就是这么简单不要怀疑,只要不出error就可以
3 CUDA10.0的安装
3.1 给可执行权限,sudo chmod a+x cuda_10.0.130_410.48_linux.run
3.2 然后运行安装,sudo ./cuda_10.0.130_410.48_linux.run
3.3 提示阅读,一直按住enter即可,在第一个选项那里会停住,以下是安装选项的回答!
Do you accept the previously read EULA?
accept/decline/quit: accept
Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 410.48?
(y)es/(n)o/(q)uit: n #不安装驱动
Install the CUDA 10.0 Toolkit?
(y)es/(n)o/(q)uit: y
Enter Toolkit Location
[ default is /usr/local/cuda-10.0 ]: 回车
Do you want to install a symbolic link at /usr/local/cuda?
(y)es/(n)o/(q)uit: n
Install the CUDA 10.0 Samples?
(y)es/(n)o/(q)uit: n
3.4安装成功界面
4 检查是否安装成功
4.1 可以到/usr/local/
下,应该可以看到cuda-10.0和cuda-10.1的文件夹
4.2 在~/.bashrc
下添加特定版本的cuda路径,使用nvcc --version
命令查看cuda版本
export PATH=$PATH:/usr/local/cuda-10.0/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-10.0/lib64
export LIBRARY_PATH=$LIBRARY_PATH:/usr/local/cuda-10.0/lib64
4.3 修改完后,source ~/.bashrc
更新下bashrc文件
4.4 使用nvcc --version
查看当前cuda版本
III.安装cudnn
这里注意不同版本的cudnn文件需要拷贝到不同版本的cuda目录中,不能拷贝到软链接中去
1 去官网下载cudnn,需要注册帐号才能下载,选择cudnn for linux
2 解压缩cudnn
不同版本的cudnn解压出来的文件夹都是cuda
,需要把之前的文件夹删掉,再解压出来其它版本的cudnn,避免文件夹命名冲突
cudnn是一个库,由头文件和lib文件组成,把这两部分文件分别拷贝到cuda目录中即可
3 为cuda安装cudnn
3.1 为cuda10.0安装cudnn
sudo cp cuda/include/cudnn.h /usr/local/cuda-10.0/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda-10.0/lib64/
sudo chmod a+r /usr/local/cuda-10.0/include/cudnn.h
sudo chmod a+r /usr/local/cuda-10.0/lib64/libcudnn*
3.2 为cuda10.1安装cudnn
sudo cp cuda/include/cudnn.h /usr/local/cuda-10.1/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda-10.1/lib64/
sudo chmod a+r /usr/local/cuda-10.1/include/cudnn.h
sudo chmod a+r /usr/local/cuda-10.1/lib64/libcudnn*
4 查看cudnn版本(注意使用的是软链接)
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
IV.多个 cuda 版本之间进行切换
多版本下需要将~/.bashrc
下与cuda相关的路径都改为/usr/local/cuda/
而不使用/usr/local/cuda-10.0/
或/usr/local/cuda-10.1/
,使用软链接链接相应版本的cuda过去即可。
1 修改.bashrc
中的cuda路径为软链接路径
export CUDA_HOME=/usr/local/cuda
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
export PATH=/usr/local/cuda/bin:$PATH
2 构造软链接
2.1 切换cuda版本时
sudo rm -rf /usr/local/cuda #删除之前创建的软链接
sudo ln -s /usr/local/cuda-10.0/ /usr/local/cuda
nvcc --version #查看当前 cuda 版本
2.2 cuda10.0 切换到 cuda10.1
sudo rm -rf /usr/local/cuda
sudo ln -s /usr/local/cuda-10.1/ /usr/local/cuda
nvcc --version
V.安装pytorch
1 使用conda创建相应版本的pytorch虚拟环境
conda create --name pytorch1.5
2 添加清华大学的镜像源,以加速conda下载速度
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --set show_channel_urls yes
3 找到安装pytorch的命令行代码
3.1 这里有个技巧去pytorch官网查找安装指定版本的pytorch的命令
3.2 安装
在实际安装的时候,去掉后面的选择pytorch的channel,默认下载就是使用清华源下载,与pytoch的chaneel版本是一样的
conda install pytorch torchvision cudatoolkit=10.1
3.3 安装完成后,检测是否安装成功
进入python3.8的命令行交互式环境(pytorch1.5是基于python3.8构建的)
python3.8 # 进入python的命令行交互界面
import torch # torch安装成功
import torchvision # torchvision安装成功
from torch.backends import cudnn
# CUDA TEST
print(torch.cuda.is_available())
# cuDNN test
x = torch.Tensor([1.0])
xx = x.cuda()
print(cudnn.is_acceptable(xx))
输出true
即为安装成功.
VI.注意事项
1 在安装的时候,可以看到提前根据自己需要的pytorch和torchvision版本有针对性的选择python, cuda和cudnn版本
2 如果ubuntu系统为中文,记得把下载的文件都移到一个英文目录中,否则Ctrl+Alt+F1进入命令行界面时,无法输入中文
3 如果中途取消安装,可以删掉blacklist中的最后一行,然后使用相同的命令更新即可.
3.1 进入blacklist,sudo gedit /etc/modprobe.d/blacklist.conf
3.2 删除最后一行,blacklist nouveau
3.3 更新设置,sudo update-initramfs -u
4 从命令行界面随时可以进入图形界面,sudo /etc/init.d/lightdm start
5 pytorch本身没有gpu版本和cpu版本两种代码,只是根据机器上是否安装了cuda决定是否进行GPU加速
6 安装驱动前确认下自己的GCC版本是否是5.4
7 记得关闭ubuntu的自动更新,否则有可能会过段时间nvidia驱动就没了??
参考
https://blog.csdn.net/u014561933/article/details/79958017 NVIDIA驱动安装
https://cloud.tencent.com/developer/article/1362692 腾讯云-驱动-cuda-cudnn-pytorch安装
https://blog.csdn.net/linwantian/article/details/79763490?from=singlemessage 赵木木的教程
https://blog.csdn.net/tunhuzhuang1836/article/details/79545625 安装多版本cuda和cudnn
https://blog.csdn.net/maple2014/article/details/78574275 安装多版本 cuda ,多版本之间切换
https://blog.csdn.net/mumoDM/article/details/79462604 多版本CUDA问题
https://blog.csdn.net/qq_19734597/article/details/103244847 关闭ubuntu的自动更新