搭建实验室共享GPU服务器(ubuntu18.04+pytorch)

开篇背景:

搞深度学习的如果没有GPU环境,那简直是寸步难行!

主机配置具体就不贴了,内存32G,双硬盘(固态+机械),2080ti

目的:搭建一个服务器平台,可用于多人同时使用GPU资源,又不会互相干扰

PS:网上教程鱼龙混杂,误人子弟一堆,本教程绝对是最简单高效的,简单记录一下过程,不提供下载链接啥的哈~


1.装ubuntu系统

本人选的是18.04,主要是之前下过...

rufus工具+某个空U盘生成U盘系统,然后插入主机,安装ubuntu...

PS:该过程主要的纠结点在于硬盘如何分区!!!

答:

首先固态下新建EFI主分区 500M,接着是/boot主分区 500M,然后是swap分区 16G,然后是/ 主分区 30G,即根目录,最后剩下全给/home主分区;

接着,机械硬盘全给/home/datasets_checkpoints,主要是来存放数据集及网络模型的

以上建议根据需要灵活分配

2.安装NVIDIA驱动

PS:刚安装的ubuntu是不会自动安装独显驱动的

使用下面的命令进行程序包更新

sudo add-apt-repository ppa:graphics-drivers/ppa

sudo apt-getupdate 

然后用下面这条获取推荐的驱动版本,并安装,然后检查安装是否成功

ubuntu-drivers devices

sudo apt-get install 推荐的那个文件名

nvidia-smi

3.安装cuda 10.0

PS:显卡驱动版本越高,可安装的cuda版本越多,即向下兼容!(但cuda与cuDNN是匹配的,请注意

正常安装即可,sudo命令

4.安装cuDNN

将 cuDNN 包内的文件,拷贝到cuda文件夹中即可


上面基本就搭完了GPU运行环境,下面开始创建pyotrch环境

1.安装Anaconda

建议安装在/home目录下,这样不同登录用户可以使用一个Anaconda创建自己的私有环境

2. 创建非root用户组

sudo groupadd stu

将所有用户归于此组,方便对用户权限的管理

3.创建某个使用用户cjx实例

sudo useradd -d "/home/cjx" -m -g stu -s "/bin/bash" cjx

sudo passwd cjx 

4.使用该用户登录,然后创建私有conda环境,然后安装pyorch

conda create -n your_env_name python=X.X

source activate your_env_name

conda install pytorch torchvision cudatoolkit=x.x -c pytorch

完结,可以正常使用了~

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容