Test过程:
1. 用selective search方法提取图片的2000个proposal,并保存到文件
2. 将图片输入到已经训好的CNN 网络,在ROI pooling Layer的地方,对每一个proposal,提取到其对应的ROI
3. 对每一个ROI, 将其划分成固定大小的网格,并且在每一个小网格中,对该网格中所有的值取最大,得到固定大小的feture map,并将其输入到后续的fc层,最后一层输出201类别相关信息和4个boundinf box的修正偏移量
4. 对bounding box 按照上述得到的位置偏移量进行修正,再根据nms对所有的proposal进行筛选,即可得到对该张图片的bounding box预测值以及每个bounding box对应的类和score
Training过程:
1. 对训练集中所有的图片,用selective search提取出各图片对应的2000个proposal,并保存。(图片路径+bounding box信息)
2. 对每张图片,根据图片中bounding box的ground truth信息,给该图片的2000个proposal赋类标签,并保存。(这2000个proposal,如果跟ground truth中的proposal的IoU值超过了阈值(IOU>=0.5),则把ground truth中的proposal对应的类标签赋给原始产生的这个proposal,其余的proposal(IOU [0.1, 0.5))都标为background)
3. 使用mini-batch=128,25%来自有非背景标签的proposal,其余来自标记为背景的proposal(最开始的理解:具体在这个过程中,mini-batch有两个层次,一个是对于同一张图片,64个proposal组成的mini-batch,另一个是完成单张图片的导数计算后,两张图片是一个mini-batch,更新的时候对两张图片求得的值取平均来更新权重),其实,就是ROI pooling layer以前,batch size=2,ROI pooling layer之后,batch size=128
4. 训练CNN,最后一层的结果包含类信息和位置修正信息,所以用多任务的loss,一个是分类的损失函数,一个是位置的损失函数
补充:
1. mini-batch的问题:ROI pooling layer前后,batch size发生了变化
2. 为什么一开始要resize到一个确定的值:为了控制显存,防止在训练过程中,因为某张图片特别大导致显存不够,程序崩了
3. 为什么比R-CNN快?(1)避免了overlap部分的多次重复计算,虽然引入了一些bounding box之外的计算。Fast R-CNN是在一张图上做的,如果图片很大,proposal很小,而且少,极少有overlap,那么R-CNN更快。(2)另一方面,R-CNN在SVM之前,需要把所有的图片再跑一次得到fc7 feature,而Fast R-CNN不需要。