Bilinear CNNs for Fine-grained Visual Recognition

1. 前言

作者提出了Bilinear Convolutional Neural Networks(B-CNNs)用于精细化的视觉识别问题,这个网络将一个图片表示为两个CNN特征的outer product
通常情况下,在精细化的分类问题中,有两种方法:一是part-based model,通过定位关键部位并提取特征。二是holistic models,这种方式在整张图片上构造特征。
这篇论文主要基于这样一个思想:很多广泛使用的texture representation可以被表示为两个设计合理的特征的outer product。

2. B-CNNs for Image Classification

2.1 The B-CNN architecture

Fig 1

一个B-CNN包含了四个部分:
B = (f_A, f_B, P, C)
,其中
f_A, f_B
提取特征的函数,通常基于CNN,
P
是pooling 函数,
C
是分类函数。
对于图片
I
,和位置
l
,它们的bilinear combination为:
1

假设特征的大小为:
K * M
K * N
,结果就是
M * N

pooling函数整合所有位置的bilinear combination,来得到图片的全局信息:
x=\Phi(I)

2

因为pooling是求和,和位置,顺序无关,因此是orderless的特征表示。

作者还在x=\Phi(I)上进行了归一化:y \rightarrow sign(x) \sqrt{|x|},z \rightarrow \frac{y}{||y||_2}
分类作者使用了SVM。

Fig 2

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容