记录一下nnUnet训练自己的数据集踩的坑,以及解决方案。
环境:windows11
使用的是nnUnetv2:https://github.com/MIC-DKFZ/nnUNet
主要参考的文章是:https://blog.csdn.net/qq_40035462/article/details/137492315,但这篇文章使用的是挑战赛的数据集,数据集自带dataset.json文件,自己的数据都是没有dataset.json需要自己生成,后面会讲。
一、配置环境
nnUnetv2要求Python版本大于3.9,我原来的conda虚拟环境是Python3.7,遂创建新的虚拟环境。
创建命令: conda create -n nnunet python=3.9
创建成功后进入虚拟环境 conda activate nnunet,但是我的电脑输入这个会报错。我只能使用这条指令进入:activate nnunet,不知道为什么。
进入虚拟环境后安装pytorch,首先输入命令nvidia-smi查看自己的cuda版本,访问Pytorch官网根据自己的cuda版本找到适合自己的Pytorch安装命令。
conda安装命令:
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
执行命令后报错:
Solving environment: failed with initial frozen solve. Retrying with flexible solve.
Solving environment: failed with repodata from current_repodata.json, will retry with next repodata source.
查资料发现是conda环境依赖的问题,遂放弃使用conda安装(conda日常抽风)
使用pip安装Pytorch:
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
200kb的下载速度下载了两个小时后安装成功。
先下载GitHub上的项目,解压到指定目录,再在这个目录的地址栏输入cmd回车,打开命令符窗口,进入nnunet虚拟环境,使用pip安装nnunetv2:
pip install -e .
随后在nnunet文件夹根目录创建三个文件夹:(1)nnUNet_raw(2)nnUNet_preprocessed(3)nnUNet_results,作用如下
nnUNet_raw:存放数据集
nnUNet_results:存放训练日志和验证结果的文件
nnUNet_preprocessed:存放模型结构文件
工程运行时需要找到这三个文件夹因此要将这三个文件夹添加到环境变量。在nnunet虚拟环境下添加临时环境变量,输入以下命令:
set nnUNet_raw=E:\nnUnet\nnUNet-master\nnUNet_raw
set nnUNet_preprocessed=E:\nnUnet\nnUNet-master\nnUNet_preprocessed
set nnUNet_results=E:\nnUnet\nnUNet-master\nnUNet_results
路径是你自己创建的文件夹路径。
至此环境配置完毕!
二、处理数据集格式
nnUNet_raw文件夹用于存放数据集。可以存放多个数据集,每个数据集一个文件夹,命名格式为:task***_DatasetName,***表示数据集编号(自定,建议从900开始),DatasetName表示数据集名称(自定)。task***_datasetname文件夹下必须有三个文件夹和一个data.json文件。三个文件夹分别是:imagesTr,imagesTs,labelsTr。含义如下:
(1)imagesTr:训练集图像。
(2)imagesTs:测试集图像,可以为空。
(3)labelsTr:标签。
这三个文件夹里存放.nii.gz格式的文件(也可以是其他格式但我只放过.nii.gz),命名格式:DatasetName_***_###.nii.gz ,***表示.nii.gz文件编号,###表示模态(CT,MRI等,只有一个模态就0000)
注意!这里的.nii.gz文件是交叉验证的基本单位。例如五折交叉验证至少有五个.nii.gz文件,如果少于五个训练时会报错。
手动做好这些数据集后就要生成dataset.json文件,这个文件的作用是明确数据集结构用于生成模型结构文件。
dataset.json文件格式:
需要改的是:
(1) labels:标签名称和数值
(2)name:数据集名称
(3)numTraining:nii.gz文件的个数
(4)training:每一个图像和标签的.nii.gz文件的地址
json文件内容解析参考:https://blog.csdn.net/weixin_42649699/article/details/122439094
生成json的代码参考:https://blog.csdn.net/weixin_47244593/article/details/135817263 (这个代码可能有错,因为我用这个代码生成json的文件在后续的数据集处理中会报错)
imagesTr,imagesTs,labelsTr文件夹和dataset.json文件都处理好后就可以进入nnunet虚拟环境处理数据集了
转换数据集,执行命令:(这里的路径换成自己的数据集文件夹路径)
nnUNetv2_convert_MSD_dataset -i E:\nnUnet\nnUNet-master\nnUNet_raw\task995_mulInf
报错:ValueError: invalid literal for int() with base 10: 'background'
可能是json文件的labels写反了,0在前面background在后面,但生成模型结构文件时又要求background在前面。这里虽然报错但还是生成了转换后的数据集Dataset***_###,需要把刚才写的json文件拷贝到Dataset***_###里,接下来生成模型结构文件,命令:
nnUNetv2_plan_and_preprocess -d *** --verify_dataset_integrity
***是自定数据集编号。
执行成功后会在nnUNet_preprocessed文件里生成一些列json文件,这就是根据你的数据集生成的Unet结构文件,模型训练时会加载这个结构文件创建Unet模型。
三、模型训练
执行命令:
nnUNetv2_train *** 2d 0
***是数据集编号,2d是调用2DUnet模型,要用3D就写3d,0是第几折训练,这一折训练完后就输入:nnUNetv2_train *** 2d 1训练第二折,第三折以此类推。
训练日志
如果当前的epoch是Dice最好的一轮就会输出:Yayy! New best EMA pseudo Dice:xxxx
每一折训练结束后会自动验证,不用特意输入验证命令。
有新的再更新