曾经Kitti道路分割排名第一的方案, 现为Kitti上UM-road 排名35的方案。
main contribution:
1.将分类、检测、分割三个任务结合起来,共用encoder框架。
2.简单,效果还好。
3.效率高,23 fps (没说在什么环境下)
architecture:
共享一个encoder,对不同的任务设计不同的decoder
encoder:
用于提取特征 ,文中主要用了vgg16 和resnet,用的都是在imageNet 上预训练的模型进行微调。其中vgg16分为vgg16-fc7和vgg16-pool5。就是用的层不一样,一个取到pool5一个取到fc7(这里fc都被换成了1*1 conv 以适应不同大小的输入)。resnet为resnet50与resnet101,去除了最后的fc层。
由于自己主要关注seg部分
classification decoder:两种,一种就是原始的全连接, 一种是卷积
detection decoder: 与yolo 相似,没有proposal生成步骤。 这样才可能实时 采用了rescaling layer 来提升性能。rescaling layer 包含RoI align。
segmentation decoder:
主要就是FCN架构 ,先用1*1卷积获取一个粗粒度分割结果。然后添加3层转置卷积。
training details:
主要是fine-tune
针对多任务,Loss不尽相同 。 分类与分割为交叉熵 检测loss较为复杂,按cell来分。
experiments results:
联合推断得到的结果和单个任务得到的结果差不太多。
针对分割:(为当时的第一)
不同encoder的效果:
分类与检测的效果就不一一列出。