Localization and Detection

Classification + Localization: 分类不多说，定位就是找到对应的对象的位置区域，把它框选出来（即Bounding Box），这个选框包含：位置信息（x，y），和大小信息（w，h）。同样的，这里的图像只包含单个对象。

Object Detection：对于给定一张图像或者视频帧，找出其中所有目标的位置，并给出每个目标的具体类别。与定位的不同就是图像中包含的对象数不确定。

Instance Segmentation：实例分割，就是在检测的基础上，把每个对象的轮廓勾勒出来，随之而来的就是语义分割（Semantic segmentation）

Computer vision task

训练过程

1. 先训练一个分类的模型，主要是训练用于提取特征的卷积网络部分（这部分可以使用迁移学习，用别人预训练好的模型，如ImageNet的与训练模型） --> Classification head

2. 在第一步中训练好的卷积网络后（有两种方式，如下第二张图），接上用于确定选框的全连接的回归网络 --> “regression head”，然后进行训练。

3. 测试时，将卷积网络后接上两个全连接的头，完成选框定位和分类

Classification + Localization

Localization

有两种方式不定类回归（class-agnostic）和特定类（class-specific）回归。

- 不定类回归：输入一张图，无论它的类别是什么，输出为4个数字（一个框）

- 特定类回归：假设共有C个类，那么共有C x 4 数字(每个类1个选框)

滑窗：更方便的处理不同尺寸的图片。（天池比赛的冠军讲解中，好多都有提到，好像很厉害）

图片size比我们的框的size要大一些，那我们就上下左右，都按照我们定的size移动一下，然后用分类器算一下score，然后移动四次后，我们可以获得四个框，对应四个不同的类别的分数值，然后对使用一些方法对这些边框和分数值进行合并。很多人说很好用。

Sliding Window 1

Sliding Window 2

Sliding Window 3

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。