FCN总结

目标:预测图像上每个像素点所属于的类别,分辨出每个像素点属于哪一类物体,以此来得到分割后的图片。

相比于传统CNN网络,比如VGG16,论文作者将最后的全连接网络层全部改成卷积网络,最终得到dense prediction

VGG16模型结构如下:

1.输入为 224x224x3

2.一共13个conv层,3个fc层

3.conv层都是:3x3 kernel,stride 1,pad 1; pool层(一共5层)都是 2x2 max,stride2

所以图片在前向传到的过程中一共缩小了32倍


因为最后的结构需要和原图像的大小一样,所以在最后作者又进行了upsampling操作(conv_transpose)(双线性插值法),还原为原来的大小,不过这样得到的结果(FCN-32)很模糊,区分度不高,论文作者又提出了FCN-16和FCN-8,即先放大2倍然后放大16倍(在pool4后多加了一层1*1的卷积网络得到的结果放大两倍然后在和最后的结果对于相加再进行放大16倍),FCN-8则是在pool3和pool4后加了卷积网络,提取第三层和第四层的信息,得到区分度更高的图像与最后的图像合并得到结果。


结论:参数学习模式都是和传统CNN一样,利用BP算法。因为最后的全连接层全变成卷积网络,所以有了全卷积网络的名称。

模型不足:得到的边缘部分很模糊,需要改进

源码:源码

未完成:不知道怎么自己制作图像分割数据集。还在查阅资料中。。。。。。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容