Computer Vision Tasks
Classification + Localization: 分类不多说,定位就是找到对应的对象的位置区域,把它框选出来(即Bounding Box),这个选框包含:位置信息(x,y),和大小信息(w,h)。同样的,这里的图像只包含单个对象。
Object Detection:对于给定一张图像或者视频帧,找出其中所有目标的位置,并给出每个目标的具体类别。与定位的不同就是图像中包含的对象数不确定。
Instance Segmentation:实例分割,就是在检测的基础上,把每个对象的轮廓勾勒出来,随之而来的就是语义分割(Semantic segmentation)
Classification + Localization
训练过程
1. 先训练一个分类的模型,主要是训练用于提取特征的卷积网络部分(这部分可以使用迁移学习,用别人预训练好的模型,如ImageNet的与训练模型) --> Classification head
2. 在第一步中训练好的卷积网络后(有两种方式,如下第二张图),接上用于确定选框的全连接的回归网络 --> “regression head”,然后进行训练。
3. 测试时,将卷积网络后接上两个全连接的头,完成选框定位和分类
回归
有两种方式不定类回归(class-agnostic)和特定类(class-specific)回归。
- 不定类回归:输入一张图,无论它的类别是什么,输出为4个数字(一个框)
- 特定类回归:假设共有C个类,那么共有C x 4 数字(每个类1个选框)
Sliding Window
滑窗:更方便的处理不同尺寸的图片。(天池比赛的冠军讲解中,好多都有提到,好像很厉害)
图片size比我们的框的size要大一些,那我们就上下左右,都按照我们定的size移动一下,然后用分类器算一下score,然后移动四次后,我们可以获得四个框,对应四个不同的类别的分数值,然后对使用一些方法对这些边框和分数值进行合并。很多人说很好用。