研究背景
检测任务
项目代码
Swin-Transformer-Object-Detection code
学习参考(Swin-Transformer源码(已跑通)
环境配置
可在已有mmDetection link 环境基础上进行配置
name: py37pt15
channels:
- pytorch
- psi4
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
- defaults
dependencies:
- _libgcc_mutex=0.1=main
- blas=1.0=mkl
- ca-certificates=2021.4.13=h06a4308_1
- certifi=2020.12.5=py37h06a4308_0
- cloog=0.18.0=0
- cudatoolkit=10.1.243=h6bb024c_0
- cudnn=7.6.5=cuda10.1_0
- cython=0.29.23=py37h2531618_0
- freetype=2.10.4=h5ab3b9f_0
- gcc-5=5.2.0=1
- gmp=6.2.1=h2531618_2
- intel-openmp=2020.2=254
- isl=0.12.2=0
- jpeg=9b=h024ee3a_2
- lcms2=2.12=h3be6417_0
- ld_impl_linux-64=2.33.1=h53a641e_7
- libffi=3.3=he6710b0_2
- libgcc=7.2.0=h69d50b8_2
- libgcc-ng=9.1.0=hdf63c60_0
- libpng=1.6.37=hbc83047_0
- libstdcxx-ng=9.1.0=hdf63c60_0
- libtiff=4.1.0=h2733197_1
- lz4-c=1.9.3=h2531618_0
- mkl=2020.2=256
- mkl-service=2.3.0=py37he8ac12f_0
- mkl_fft=1.3.0=py37h54f3939_0
- mkl_random=1.1.1=py37h0573a6f_0
- mpc=1.1.0=h10f8cd9_1
- mpfr=4.0.2=hb69a4c5_1
- ncurses=6.2=he6710b0_1
- ninja=1.10.2=hff7bd54_1
- numpy=1.19.2=py37h54aff64_0
- numpy-base=1.19.2=py37hfa32c7d_0
- olefile=0.46=py37_0
- openssl=1.1.1k=h27cfd23_0
- pillow=8.2.0=py37he98fc37_0
- pip=21.0.1=py37h06a4308_0
- python=3.7.10=hdb3f193_0
- pytorch=1.5.0=py3.7_cuda10.1.243_cudnn7.6.3_0
- readline=8.1=h27cfd23_0
- setuptools=52.0.0=py37h06a4308_0
- six=1.15.0=py37h06a4308_0
- sqlite=3.35.4=hdfb4753_0
- tk=8.6.10=hbc83047_0
- torchvision=0.6.0=py37_cu101
- wheel=0.36.2=pyhd3eb1b0_0
- xz=5.2.5=h7b6447c_0
- zlib=1.2.11=h7b6447c_3
- zstd=1.4.9=haebb681_0
- pip:
- addict==2.4.0
- cycler==0.10.0
- future==0.18.2
- kiwisolver==1.3.1
- matplotlib==3.4.1
- mmcv-full==1.3.1
- mmpycocotools==12.0.3
- opencv-python==4.5.1.48
- pyparsing==2.4.7
- python-dateutil==2.8.1
- pyyaml==5.4.1
- terminaltables==3.1.0
- timm==0.4.5
- yapf==0.31.0
prefix: /home/intern2/anaconda3/envs/py37pt15
其中apex可选。
训练测试过程
与mmdetection基本一致
训练命令
python tools/train.py configs_rib/swin/cascade_mask_rcnn_swin_tiny_rib.py --gpu-ids=7 --cfg-options model.pretrained=./checkpoints/cascade_mask_rcnn_swin_tiny_patch4_window7.pth --work-dir ./work_dirs/cascade_mask_rcnn_swin_rib0425_0506
python tools/train.py configs_rib/swin/cascade_mask_rcnn_swin_tiny_rib.py --gpu-ids=0 --cfg-options model.pretrained=./checkpoints/swin_tiny_patch4_window7_224.pth --work-dir=./work_dirs/cascade_mask_rcnn_swin_rib0425_0506
从链接 https://github.com/SwinTransformer/Swin-Transformer-Object-Detection下载的pretrained model 会有问题,建议从链接 https://github.com/microsoft/Swin-Transformer 下载 swin_tiny_patch4_window7_224.pth 预训练模型。
问题梳理
- 训练启动后关于 backbone registry 的 KeyError的问题
问题描述
KeyError: "CascadeRCNN: 'SwinTransformer is not in the backbone registry'"
解决方式:
在当前工程项目文件夹下运行如下命令
python setup.py develop
参考 issue 9
- 训练启动后关于 relative_position_bias_table 的 KeyError的问题
问题描述:
KeyError: "CascadeRCNN: 'backbone.layers.0.blocks.0.attn.relative_position_bias_table'"
用的预训练模型是在COCO det上微调过的模型,而不是ImageNet预训练中的模型。
解决方式;
从链接 https://github.com/microsoft/Swin-Transformer 下载相对应的模型。
参考 issue 4
- 训练启动后关于初始化的 RuntimeError 的问题
问题描述:
RuntimeError: Default process group has not been initialized, please make sure to call init_process_group.
问题原因是非分布式训练使用了分布式训练的设置
解决方式:
方案一是改为默认的分布式训练
# multi-gpu training
tools/dist_train.sh <CONFIG_FILE> <GPU_NUM> --cfg-options model.pretrained=<PRETRAIN_MODEL> [model.backbone.use_checkpoint=True] [other optional arguments]
方案二是修改 tools/train.py 中代码,加入如下内容:
import torch.distributed as dist
dist.init_process_group('gloo', init_method='file:///temp/somefile', rank=0, world_size=1)
方案三是修改配置文件 Swin-Transformer-Object-Detection/configs_rib/swin/cascade_mask_rcnn_swin_tiny.py 代码,将
norm_cfg=dict(type='SyncBN', requires_grad=True),
改为
norm_cfg=dict(type='BN', requires_grad=True),
即'SyncBN'改为'BN'。
'SyncBN'是采用distributed的训练方法,在单GPU non-distributed训练中使用会出现上述错误,改为type='BN' 即可。
- 训练时Apex报错,因而选择禁用
默认情况下,Swin使用apex进行混合精度训练,如果要禁用Apex,请修改Runner的类型为'EpochBasedRunner'并在配置文件中cascade_mask_rcnn_swin_tiny.py的修改并且注释以下代码块:
runner = dict(type='EpochBasedRunner', max_epochs=36)
## Disable apex
# # runner = dict(type='EpochBasedRunnerAmp', max_epochs=36)
# # do not use mmdet version fp16
# fp16 = None
# optimizer_config = dict(
# type="DistOptimizerHook",
# update_interval=1,
# grad_clip=None,
# coalesce=True,
# bucket_size_mb=-1,
# use_fp16=True,
# )
- 将默认的maskRCNN改为无mask的常规目标检测
需要将含mask的配置文件代码注释
首先是configs/swin/cascade_mask_rcnn_swin_tiny_rib.py
dict(type='LoadAnnotations', with_bbox=True), # remove mask
# dict(type='LoadAnnotations', with_bbox=True, with_mask=True),
dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels']), # remove mask
# dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels', 'gt_masks']),
然后是configs/base/models/cascade_mask_rcnn_swin_fpn_rib.py
# mask_roi_extractor=dict(
# type='SingleRoIExtractor',
# roi_layer=dict(type='RoIAlign', output_size=14, sampling_ratio=0),
# out_channels=256,
# featmap_strides=[4, 8, 16, 32]),
# mask_head=dict(
# type='FCNMaskHead',
# num_convs=4,
# in_channels=256,
# conv_out_channels=256,
# num_classes=1,
# loss_mask=dict(
# type='CrossEntropyLoss', use_mask=True, loss_weight=1.0))
# mask_size=28,
# mask_thr_binary=0.5
最后是修改训练数据集,将coco改为voc格式。
_base_ = [
'../_base_/models/cascade_mask_rcnn_swin_fpn_rib.py',
'../_base_/datasets/voc0712.py',
'../_base_/schedules/schedule_1x_rib.py', '../_base_/default_runtime.py'
]
参考 issue 25
- 使用自定义数据集进行训练
与mmdetection修改方式类似。
首先是修改配置文件configs/swin/cascade_mask_rcnn_swin_tiny.py 的类别个数
# num_classes=80,
num_classes=1,
然后是修改mmdet/core/evaluation/class_names.py的类别名
def voc_classes():
return [
'frac',
]
# return [
# 'aeroplane', 'bicycle', 'bird', 'boat', 'bottle', 'bus', 'car', 'cat',
# 'chair', 'cow', 'diningtable', 'dog', 'horse', 'motorbike', 'person',
# 'pottedplant', 'sheep', 'sofa', 'train', 'tvmonitor'
# ]
最后是mmdet/datasets/voc.py里的类别元组。
CLASSES = ('frac', )
# CLASSES = ('aeroplane', 'bicycle', 'bird', 'boat', 'bottle', 'bus', 'car',
# 'cat', 'chair', 'cow', 'diningtable', 'dog', 'horse',
# 'motorbike', 'person', 'pottedplant', 'sheep', 'sofa', 'train',
# 'tvmonitor')
到此为止,环境的搭建、数据的准备、配置文件的修改基本准备完成,可以进行自定义数据集的训练过程。