Mask R-CNN
之前讲的Fast/Faster RCNN的方法都是得到region proposal,这个方法可以直接得到图像的mask.这个网络可以同时得到图像的label,bounding boxes,mask,而且是instance segmentation.
loss function 结构如下:L=L_cls+L_box+L_mask
其中L_mask 为逐像素的softmax,和多维度交叉熵表示法.
另一个主要贡献是在于:网络把ROIPooling层转变为ROIAlign层.由于图像投影到feature map,feature map投影到maxpooling都存在精度损失问题,所以这两次损失我们都可以用双线性插值的方法引入浮点型坐标.最后在maxpooling的时候,对每一个bin选四个基础点(可以是浮点型,利用双线性差值的方法),然后就可以在这四个点里面选一个最大值,就可以.
具体实现细节参考下面博客:
https://blog.csdn.net/u011918382/article/details/79455407