这里关键的坑只有一个,就是虽然理论安装顺序是先安装cuda再安装cudnn,但其实cudnn只支持有限版本的cuda,所以必须先查看官网最新cudnn的版本所支持的cuda版本,然后查看电脑已安装的cuda,如果版本不一致就先卸载再安装所需版本cuda,最后安装cudnn。
不过就算不小心先安装了最新版cudnn,再重装cuda也是没关系的,卸载和安装cuda都不影响cudnn。
cudnn的下载地址及安装指南:https://developer.nvidia.com/rdp/cudnn-download
cuda各版本下载地址及安装指南:https://developer.nvidia.com/cuda-toolkit-archive
cuda的卸载方法在安装指南最下面,若找不到索性也放一下:https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#removing-cuda-tk-and-driver
简单说一下我重装cuda的流程:按官方教程卸载cuda以及nvidia驱动,reboot(不reboot是无法安装新cuda的。reboot后屏幕分辨率很低),按教程重装cuda,安装出现错误则按提示查看log然后搜索错误解决方法,安装完毕后按提示添加PATH和LD_LIBRARY_PATH。我下载的cuda安装文件是 runfile (local),文件很大,是在命令窗口以图形化的方式设置安装,其中包括了nvidia驱动。我不确定别的安装方法的CUDA有没有自带nvidia驱动。
设置PATH和LD_LIBRARY_PATH的方法:https://blog.csdn.net/qq_19004627/article/details/79090052
每一步安装成果的检验:
安装cuda后可用nvcc -V
查看cuda版本,如果显示未安装nvcc,勿根据提示安装,而是加入路径。
安装cudnn后可按安装指南的方法编译运行mnist来测试,如果报错百度或谷歌安装相应包即可。
查看cudnn版本的方法大多过时,因为cudnn的版本号已经不放在cudnn.h而是cudnn_version.h,正确命令:cat /usr/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
PS:若只是想要用n卡驱动,最简单的方法是在“附加驱动”的显卡选项中勾选最新驱动并应用。
2024-06-07更新:
若是使用pytorch自带的cuda,以上的方法都是不需要的,直接去pytorch官网按指令安装后,则可以在python中
import torch
print(torch.version.cuda)
即可查看torch使用的cuda版本,这个同样根据需求安装。nvidia驱动所支持的最高版本cuda可以通过nvida-smi查看,如若不够则需要卸载后升级。
现在这样的使用更多,因为更容易控制版本。
中国学AI的门槛一上来就高两个头,一个是经常要处理各种安装时的连接问题,一个是版本问题无穷无尽,而解决方案通常都在外网,还是一个资源渠道问题,包括网络连接和语言。