开篇背景:
搞深度学习的如果没有GPU环境,那简直是寸步难行!
主机配置具体就不贴了,内存32G,双硬盘(固态+机械),2080ti
目的:搭建一个服务器平台,可用于多人同时使用GPU资源,又不会互相干扰
PS:网上教程鱼龙混杂,误人子弟一堆,本教程绝对是最简单高效的,简单记录一下过程,不提供下载链接啥的哈~
1.装ubuntu系统
本人选的是18.04,主要是之前下过...
用rufus工具+某个空U盘生成U盘系统,然后插入主机,安装ubuntu...
PS:该过程主要的纠结点在于硬盘如何分区!!!
答:
首先固态下新建EFI主分区 500M,接着是/boot主分区 500M,然后是swap分区 16G,然后是/ 主分区 30G,即根目录,最后剩下全给/home主分区;
接着,机械硬盘全给/home/datasets_checkpoints,主要是来存放数据集及网络模型的
以上建议根据需要灵活分配
2.安装NVIDIA驱动
PS:刚安装的ubuntu是不会自动安装独显驱动的
使用下面的命令进行程序包更新
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-getupdate
然后用下面这条获取推荐的驱动版本,并安装,然后检查安装是否成功
ubuntu-drivers devices
sudo apt-get install 推荐的那个文件名
nvidia-smi
3.安装cuda 10.0
PS:显卡驱动版本越高,可安装的cuda版本越多,即向下兼容!(但cuda与cuDNN是匹配的,请注意)
正常安装即可,sudo命令
4.安装cuDNN
将 cuDNN 包内的文件,拷贝到cuda文件夹中即可
上面基本就搭完了GPU运行环境,下面开始创建pyotrch环境
1.安装Anaconda
建议安装在/home目录下,这样不同登录用户可以使用一个Anaconda创建自己的私有环境
2. 创建非root用户组
sudo groupadd stu
将所有用户归于此组,方便对用户权限的管理
3.创建某个使用用户cjx实例
sudo useradd -d "/home/cjx" -m -g stu -s "/bin/bash" cjx
sudo passwd cjx
4.使用该用户登录,然后创建私有conda环境,然后安装pyorch
conda create -n your_env_name python=X.X
source activate your_env_name
conda install pytorch torchvision cudatoolkit=x.x -c pytorch
完结,可以正常使用了~