论文笔记:MultiNet: Real-time Joint Semantic Reasoning for Autonomous Driving

曾经Kitti道路分割排名第一的方案, 现为Kitti上UM-road 排名35的方案。
main contribution:
1.将分类、检测、分割三个任务结合起来,共用encoder框架。
2.简单,效果还好。
3.效率高,23 fps (没说在什么环境下)

architecture:



共享一个encoder,对不同的任务设计不同的decoder

encoder:
用于提取特征 ,文中主要用了vgg16 和resnet,用的都是在imageNet 上预训练的模型进行微调。其中vgg16分为vgg16-fc7和vgg16-pool5。就是用的层不一样,一个取到pool5一个取到fc7(这里fc都被换成了1*1 conv 以适应不同大小的输入)。resnet为resnet50与resnet101,去除了最后的fc层。

由于自己主要关注seg部分
classification decoder:两种,一种就是原始的全连接, 一种是卷积
detection decoder: 与yolo 相似,没有proposal生成步骤。 这样才可能实时 采用了rescaling layer 来提升性能。rescaling layer 包含RoI align。
segmentation decoder:
主要就是FCN架构 ,先用1*1卷积获取一个粗粒度分割结果。然后添加3层转置卷积。

training details:
主要是fine-tune
针对多任务,Loss不尽相同 。 分类与分割为交叉熵 检测loss较为复杂,按cell来分。

experiments results:
联合推断得到的结果和单个任务得到的结果差不太多。
针对分割:(为当时的第一)




不同encoder的效果:


分类与检测的效果就不一一列出。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容