深入浅出pytorch学习记录6

前置背景信息补充:COCO train2017指的是MS COCO(Microsoft Common Objects in Context)数据集中的一个子集,具体来说是用于训练机器学习模型的图像集合。这个数据集由微软发布,并被广泛应用于计算机视觉任务中,如物体检测、分割和关键点检测等。

ImageNet-1k 是一个广泛使用的图像数据集


torchvision.datasets计算机视觉中常见的数据集

查看方式:

import torchvision.datasets as datasets

# 打印出datasets中的所有属性和方法

print(dir(datasets))


torchvision.transforms用于将各种进来的数据统一预处理,可以用来进行数据增强操作


附注性解释
transforms.ToPILImage():

这个变换将图像从numpy.ndarray (H x W x C) 或者 torch.Tensor格式(C x H x W)转换为PIL Image格式。

注意:如果你是从torchvision.datasets加载数据,这一步通常是不必要的,因为内置的数据集已经提供了PIL Image格式的图片。因此,在这种情况下,可以省略此步骤。


torchvision.models提供了一些预训练好的模型供人们使用

ImageNet-1k:专注于单一对象的分类任务。

COCO train2017:支持多种复杂的计算机视觉任务,包括但不限于目标检测、实例分割、关键点检测。


物体掩码(Object Mask) 是计算机视觉领域中用于描述图像内特定对象区域的技术。它通常表现为一个与原图大小相同的二值图像,其中像素值为1(或True)表示该像素属于感兴趣的对象区域,而像素值为0(或False)则表示不属于该对象的背景或其他部分。

在评估目标检测、关键点检测和实例分割模型的性能时使用的相关参数

Box AP:评估目标检测模型的性能,主要关注物体边界框的准确性。

Keypoint AP:评估关键点检测模型的性能,主要关注关键点位置的准确性。

Mask AP:评估实例分割模型的性能,主要关注物体掩码的准确性。


Top-1 Accuracy(acc@1)是指模型预测的最有可能的类别(即概率最高的类别)与实际标签相匹配的比例。换句话说,如果模型预测的最高概率类别正好是正确答案,则认为该预测是正确的。

Top-5 Accuracy(acc@5)是指模型预测的前五个最有可能的类别中包含正确类别的比例。即使模型没有将正确类别预测为第一选择,只要它在前五名中出现,就认为该预测是正确的。

CLIP(Contrastive Language–Image Pretraining)是一个联合训练图像和文本表示的多模态模型。它能够通过对比学习的方式将图像和文本映射到同一个嵌入空间中,从而实现零样本学习(zero-shot learning)。在评估CLIP模型时,通常会使用acc@1和acc@5来衡量其分类性能。


ROI:是图像中的特定区域,这个区域可能是用户手动选择的,也可能是通过某种算法自动确定的。例如,在目标检测任务中,ROI可以是一个可能包含某个对象的边界框。

ROI特征:是指从这些选定的区域内提取出的信息,这些信息可以是颜色、纹理、边缘、形状等低级视觉特征,也可以是通过深度学习模型得到的高级语义特征。

在计算机视觉领域,尤其是目标检测和实例分割任务中,NMS(非极大值抑制)、RoIAlign(感兴趣区域对齐)和RoIPool(感兴趣区域池化)是几种关键技术。

NMS 是一种用于过滤冗余检测框的技术,主要用于目标检测任务中的后处理步骤。

目的:消除重叠度较高的冗余检测框,保留最有可能的预测结果。

RoIPool 是一种用于将不同大小的感兴趣区域(ROI)转换为固定大小特征图的技术,主要应用在Fast R-CNN及其衍生模型中。

目的:将任意大小的ROI转换为固定大小的特征向量,以便于后续的分类和回归操作。

RoIAlign (Region of Interest Align, 感兴趣区域对齐)

RoIAlign 是对RoIPool的一种改进,旨在解决RoIPool中由于量化带来的精度损失问题。它被广泛应用在Mask R-CNN等模型中。

目的:更精确地提取ROI特征,避免因量化导致的信息丢失。


PyTorchVideo 是一个专注于视频理解工作的深度学习库。PytorchVideo 提供了加速视频理解研究所需的可重用、模块化和高效的组件。PyTorchVideo 是使用PyTorch开发的,支持不同的深度学习视频组件,如视频模型、视频数据集和视频特定转换。


torchtext现在更多是transformers库


音频内容暂时不关注了

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容