前置背景信息补充:COCO train2017指的是MS COCO(Microsoft Common Objects in Context)数据集中的一个子集,具体来说是用于训练机器学习模型的图像集合。这个数据集由微软发布,并被广泛应用于计算机视觉任务中,如物体检测、分割和关键点检测等。
ImageNet-1k 是一个广泛使用的图像数据集
torchvision.datasets计算机视觉中常见的数据集
查看方式:
import torchvision.datasets as datasets
# 打印出datasets中的所有属性和方法
print(dir(datasets))
torchvision.transforms用于将各种进来的数据统一预处理,可以用来进行数据增强操作
附注性解释
transforms.ToPILImage():
这个变换将图像从numpy.ndarray (H x W x C) 或者 torch.Tensor格式(C x H x W)转换为PIL Image格式。
注意:如果你是从torchvision.datasets加载数据,这一步通常是不必要的,因为内置的数据集已经提供了PIL Image格式的图片。因此,在这种情况下,可以省略此步骤。
torchvision.models提供了一些预训练好的模型供人们使用
ImageNet-1k:专注于单一对象的分类任务。
COCO train2017:支持多种复杂的计算机视觉任务,包括但不限于目标检测、实例分割、关键点检测。
物体掩码(Object Mask) 是计算机视觉领域中用于描述图像内特定对象区域的技术。它通常表现为一个与原图大小相同的二值图像,其中像素值为1(或True)表示该像素属于感兴趣的对象区域,而像素值为0(或False)则表示不属于该对象的背景或其他部分。
在评估目标检测、关键点检测和实例分割模型的性能时使用的相关参数
Box AP:评估目标检测模型的性能,主要关注物体边界框的准确性。
Keypoint AP:评估关键点检测模型的性能,主要关注关键点位置的准确性。
Mask AP:评估实例分割模型的性能,主要关注物体掩码的准确性。
Top-1 Accuracy(acc@1)是指模型预测的最有可能的类别(即概率最高的类别)与实际标签相匹配的比例。换句话说,如果模型预测的最高概率类别正好是正确答案,则认为该预测是正确的。
Top-5 Accuracy(acc@5)是指模型预测的前五个最有可能的类别中包含正确类别的比例。即使模型没有将正确类别预测为第一选择,只要它在前五名中出现,就认为该预测是正确的。
CLIP(Contrastive Language–Image Pretraining)是一个联合训练图像和文本表示的多模态模型。它能够通过对比学习的方式将图像和文本映射到同一个嵌入空间中,从而实现零样本学习(zero-shot learning)。在评估CLIP模型时,通常会使用acc@1和acc@5来衡量其分类性能。
ROI:是图像中的特定区域,这个区域可能是用户手动选择的,也可能是通过某种算法自动确定的。例如,在目标检测任务中,ROI可以是一个可能包含某个对象的边界框。
ROI特征:是指从这些选定的区域内提取出的信息,这些信息可以是颜色、纹理、边缘、形状等低级视觉特征,也可以是通过深度学习模型得到的高级语义特征。
在计算机视觉领域,尤其是目标检测和实例分割任务中,NMS(非极大值抑制)、RoIAlign(感兴趣区域对齐)和RoIPool(感兴趣区域池化)是几种关键技术。
NMS 是一种用于过滤冗余检测框的技术,主要用于目标检测任务中的后处理步骤。
目的:消除重叠度较高的冗余检测框,保留最有可能的预测结果。
RoIPool 是一种用于将不同大小的感兴趣区域(ROI)转换为固定大小特征图的技术,主要应用在Fast R-CNN及其衍生模型中。
目的:将任意大小的ROI转换为固定大小的特征向量,以便于后续的分类和回归操作。
RoIAlign (Region of Interest Align, 感兴趣区域对齐)
RoIAlign 是对RoIPool的一种改进,旨在解决RoIPool中由于量化带来的精度损失问题。它被广泛应用在Mask R-CNN等模型中。
目的:更精确地提取ROI特征,避免因量化导致的信息丢失。
PyTorchVideo 是一个专注于视频理解工作的深度学习库。PytorchVideo 提供了加速视频理解研究所需的可重用、模块化和高效的组件。PyTorchVideo 是使用PyTorch开发的,支持不同的深度学习视频组件,如视频模型、视频数据集和视频特定转换。
torchtext现在更多是transformers库
音频内容暂时不关注了