Step1:原始图像的预处理
利用selective search对原始图像取得2000个目标候选区域,得到的候选区大小不一,因网络最后有全连接层的存在,故需将尺度进行缩放,此处缩放至(227*227)【方式:将原来每个区域向外扩展16个像素,然后再进行缩放;原因:使每个区域都能包含一些背景信息,可提供先验信息】??先验信息的作用
Step2:利用模型对每个区域提取特征
利用在ImageNet上训练好的AlexNet除去1000-softmax层(5层CNN+fc6+fc7),换成(N+1)-SVMs,进行精调(??调的是哪一层还是整个网络),【将softmax换成svm的原因:softmax中的背景样本是共享的,而SVM的背景样本是独立的,更加严格,能带来更好的分类效果???】此时正负样本的确定依据是IoU<0.5为负样本。并且将学习率设置成原模型中学习率的1/10(??目的是为了既能学到新东西但不会完全否定旧的东西,是指精调还是指学习率的设置),batch的大小为128,其中正负样本的比例为1:3
Step3:对SVMs进行训练
此时正负样本的定义与Step2中的定义不同,取IoU<0.3的为负样本,至于如何得到的这些参数取值,则是通过实验尝试。
**分别将pool5,fc6,fc7得到的特征用于SVM进行分类,其得到的分类结果近似,作者得出的结论是:CNN的特征表达能力大部分集中在卷积层。
**pool5经过精调之后,mAP值提高不明显,由此得出结论:卷积层提取出来的特征时具有普遍性的,(即提取到的是一般性的特征??);而fc7经过精调后,结果得到很大的提升,由此得到结论:精调的效果主要是在全连接层上。
Step4:测试
对于一张图片,进行与训练时相同的数据预处理操作,然后对2000个区域均进行分类,得到其所属的类别,然后对同类别的候选区进行非极大值抑制对候选区进行筛选得到检测目标。最后再进行Boundary-box regression(即:对矩形框的四个值(x,y,width,height)进行回归)对筛选出的区域进一步进行物体的定位,使得mAP有所提高。【因为在对图片进行预处理时,是扩展了16个像素后再进行的缩放,也就是得到的bounding-box是偏大的】
Ending:
基于区域进行卷积提取特征,然后将多目标检测问题转换成多分类问题,利用卷积网络提取到的特征训练分类器其效果比原始的特征提取方法效果更好。
不足:但是,因为对每张图都会得到2000个候选区,其计算量很大,不利于实时操作。