计算机视觉任务介绍

一、计算机视觉任务概述

计算机视觉任务涵盖了从基础图像识别到复杂场景理解的多个层面,主要包括5个任务,分别是图像分类、目标检测、图像分割、人体分析、三维视觉、视频分析等。

二、图像分类(Image Classification)

图像分类是计算机视觉中最基础的任务,旨在判断一张图像的整体类别,解决“是什么”的问题。例如,判断图像中是否包含猫、狗或其他物体。

特点:专注于图像的整体内容,不关心物体具体位置,输出通常是概率分布。

应用:人脸识别、相册自动归类、医疗影像识别等。

经典模型:LeNet、AlexNet、VGG、ResNet等,这些模型在ImageNet等数据集上取得了显著成果。

三、目标检测(Object Detection)

目标检测不仅需要识别图像中的物体,还要确定它们的位置(通常用边界框标出),同时解决“是什么”和“在哪里”的问题。

特点:结合了分类和定位,能够处理图像中多个物体。

应用:人脸检测、交通监控、产品质检等。

经典模型:R-CNN系列、YOLO、SSD等。

其中目标定位Object Localization)是目标检测的一个子问题,该任务是识别图像中的某一类物体的类别,还要用边界框(Bounding Box)标出其一个或多个边界框位置。

两者的区别简单举例如下:

  • 目标定位:一张图中有一只猫,任务是回答“这是猫,它在图像中央区域(用一个框标出)”。

  • 目标检测:一张街景图中有行人、汽车、交通灯等,任务是分别标出每个物体的类别和位置。

四、图像分割(Image Segmentation)

图像分割任务对图像进行像素级别的分类,比目标检测更精细,主要包括语义分割、实例分割和全景分割。

4.1 语义分割(Semantic Segmentation)

将图像中的每个像素分类到某个语义类别,但不区分同一类别的不同实例(例如,所有汽车都是同一种颜色)。

4.2 实例分割(instance Segmentation)

在语义分割的基础上,区分同一类别的不同实例(例如,不同汽车用不同颜色标出),其中实例为图像中所有可数的、有明确边界的物体(称为“thing”类,如人、车、狗)。

应用:医学图像分析(如肿瘤分割)、自动驾驶中的道路场景理解等。

经典模型:U-Net、Mask R-CNN、DeepLab等。

4.3 全景分割(Panoptic Segmentation)

在实例分割的基础上,要整个图像的分割结果无重叠、全覆盖(每个像素有且仅有一个标签)。

统一处理“thing”和“stuff”两类区域,为图像中每一个像素分配一个唯一的语义标签 + 实例ID(对“thing”类)。

  • “stuff”类(如天空、道路、草地):只给语义标签,无实例ID(因为不可数);

  • “thing”类(如人、车):既有语义标签,也有唯一实例ID

五、人体分析(Human Analysis)

人体分析专注于对人体特征的识别和理解,包括多个子任务,这些子任务常常相互依赖、联合优化。例如,姿态估计可辅助动作识别,人体分割可提升虚拟试衣效果,Re-ID 通常结合人体检测与特征提取。

人体分析的子任务包括:
├── 人脸相关:人脸识别、表情识别、人脸属性
├── 全身相关
│ ├── 检测:人体检测、行人检测
│ ├── 定位:姿态估计、关键点检测
│ ├── 分割:人体解析(Human Parsing)
│ ├── 识别:行人重识别(Re-ID)、步态识别
│ ├── 理解:动作/行为识别
│ └── 重建:3D人体建模
└── 属性理解:性别、衣着、年龄等语义属性

5.1 人脸识别(Face Recognition)

目标:识别图像中人脸的身份(“这是谁?”)。现在也有猪脸识别!

相关任务:

  • 人脸检测(Face Detection):定位人脸位置。
  • 人脸对齐(Face Alignment):定位关键点(如眼睛、鼻子)。
  • 人脸验证(Face Verification):判断两张人脸是否属于同一人。

应用:手机解锁、门禁系统、身份认证。

5.2 人体检测(Human Detection / Person Detection)

目标:在图像或视频中定位整个人体的位置(通常用边界框表示)。

注意:不同于人脸识别,关注的是完整人体。

应用:监控、人群计数、自动驾驶中的行人检测

5.3 姿态估计(Pose Estimation)

识别目标:定位人体关键点(如关节:肩、肘、膝等)的位置。

姿态估计分类:

  • 2D 姿态估计:关键点在图像平面上的坐标

  • 3D 姿态估计:关键点在三维空间中的坐标。

单人 vs 多人姿态估计:后者需先检测多人再分别估计。

应用:动作捕捉、健身指导、动画生成,体感游戏

5.4 人体分割(Human Parsing / Instance Segmentation of Person)

目标:对图像中的人体进行像素级语义分割,通常细分为身体部位(如头、上衣、裤子、鞋子等)。也称:人体解析(Human Parsing)。

与实例分割关系:可视为针对“人”这一类别的精细化实例分割。

应用:虚拟试衣、影视特效、时尚分析。

5.5 行人重识别(Person Re-Identification, Re-ID)

目标:在不同摄像头或不同时间拍摄的图像/视频中,判断是否为同一个行人。

挑战:视角变化、光照差异、遮挡、衣着变化等。

输入:通常是一张裁剪好的行人图像

应用:智能安防、跨摄像头追踪

5.6 动作识别 / 行为识别(Action / Activity Recognition)

目标:识别一个人或多人正在进行的动作(如“跑步”、“挥手”、“摔倒”)。

输入:单帧图像(静态动作)或视频序列(动态行为)。

细分:

  • 单人动作识别

  • 多人交互行为识别(如“握手”、“打架”)

应用:智能家居、体育分析、虚拟现实、运动员训练分析、异常行为检测。

5.7 表情识别(Facial Expression Recognition)

目标:识别人脸所表达的情绪状态(如高兴、愤怒、悲伤、惊讶等)。

通常基于:人脸关键点或纹理特征。

应用:人机情感交互、心理健康评估、广告效果分析。

5.8 属性识别(Attribute Recognition)

目标:识别人体或人脸的语义属性

例如:

  • 人脸属性:性别、年龄、是否戴眼镜、胡须等;

  • 衣着属性:上衣颜色、是否穿裙子、背包、帽子等。

应用:智能零售、安防布控(如“寻找穿红衣服的女性”)。

5.9 3D 人体重建(3D Human Reconstruction)

目标:从单张或多张图像中恢复人体的三维形状和姿态(如 SMPL 模型)。

输出:参数化的人体网格模型。

应用:虚拟试衣、数字人、游戏动画

5.10 步态识别(Gait Recognition)

目标:通过人的行走姿态识别其身份(即使人脸不可见)。

优势:可在低分辨率、远距离、遮挡情况下工作

应用:远距离身份识别、安防监控

六、三维计算机视觉(3D Computer Vision)

三维视觉(3D Vision)是计算机视觉的一个重要分支,旨在从二维图像或传感器数据中恢复、理解或生成三维空间信息,使机器具备“深度感知”和“空间理解”能力。与传统的二维视觉不同,三维视觉关注的是场景或物体在三维空间中的几何结构、姿态、形状和空间关系

三维视觉任务涵盖从几何重建到高层语义理解等多个层面,可以大致分为四类:①三维感知与重建、②三维检测、识别、定位、跟踪、位姿估计、③三维分割与理解,以及④三维分析与生成理解与创造

6.1 三维感知与重建

三维感知与重建旨在让机器从传感器数据(主要是图像)中获取并理解三维世界的几何结构与属性,输出是场景的几何结构,不涉及语义或物体类别。

6.1.1 深度估计

目标:从图像(单目、双目或多视角)中预测每个像素到相机的距离(即深度值)。

输入:RGB 图像(单目)、左右图像对(双目)、多视角图像或视频。

输出:与输入图像分辨率一致的深度图(Depth Map),每个像素值表示距离。

主要方法:

  • 单目深度估计:依赖于模型从大量数据中学到的场景先验知识(例如,物体遮挡关系、大小、纹理等)来“猜测”深度。通过 CNN 或 Transformer 预测深度(如 Monodepth、MiDaS、DPT,但依赖学习先验,精度有限),难度非常之高。

  • 双目深度估计:从双目相机拍摄的左右两幅图像中,计算左右图像的视差(Disparity)→ 深度 = 基线 × 焦距 / 视差,从而将视差图(Disparity Map) → 转换为深度图(Depth Map),应用范围较广,精度满足需求。它属于三维视觉中最基础、最经典的几何感知任务之一

  • 基于学习的立体匹配:如 PSMNet、GANet。

挑战:纹理缺失区域、遮挡、无监督训练。

应用:AR 遮挡、机器人避障、3D 重建前置步骤。

6.1.2 点云生成

从获得的深度图像(或视差图)中,通过将每个像素对应的深度值与相机的内参结合,计算出三维空间中的每个点的位置,恢复场景中每个可见点的三维空间坐标,最终生成一个由三维点组成的点云。

6.1.2.1 单图像点云生成(Single-Image 3D Reconstruction)

输入:单张RGB图像

挑战:存在严重几何歧义(一个2D投影对应无数3D形状)

解决思路:依赖数据驱动的先验知识(通过深度学习学习常见物体的3D形状分布)

代表方法

  • PointSet Generation Networks (PSGN) :直接回归固定数量的3D点
  • AtlasNet:用多个参数化曲面(patches)拼接成完整形状
  • Pixel2Point:结合图像特征与点云生成
  • 基于隐式场的方法:先预测SDF或Occupancy Field,再通过Marching Cubes或采样得到点云

优点:输入简单;

缺点:精度有限,对遮挡/复杂结构泛化差

6.1.2.2 多视角点云生成(Multi-View Stereo → Point Cloud)

输入:多个已知或未知位姿的图像

流程:

  • ①估计相机位姿(通过SfM或SLAM)
  • ②进行多视图立体匹配(MVS)
  • ③三角化或深度图融合 → 生成稠密点云

代表系统

  • COLMAP(SfM + MVS)
  • MVSNet、CVP-MVSNet(基于深度学习的MVS)
  • OpenMVS(开源MVS工具)

优点:几何精度高;

缺点:需要多视角、计算量大

6.1.3 三维重建

三维重建是从二维图像或其他数据源中重建出场景或物体的三维几何模型,是三维感知的终极目标之一。常见的三维重建方法有多视图立体法(Multiview Stereo, MVS)、结构光、SLAM和基于图像的SFM等。

6.1.3.1 运动结构恢复SFM(Structure from Motion)

运动结构恢复(SFM)是一种是离线、非实时的稀疏重建方法,通过分析来自不同视角的图像(无序图像集合),恢复稀疏三维点云(场景结构)和每张图像的相机位姿(内参+外参),常作为MVS等稠密重建算法的预处理步骤。

输入:一系列无序的、有重叠区域的图像(甚至不知道相机参数)。

输出:稀疏的点云(只包含特征点) + 相机姿态(内参+外参)。

流程:首先在所有图像中检测并匹配特征点(如SIFT、ORB),然后通过三角化计算这些特征点的三维位置,并同时优化相机参数和三维点坐标(称为Bundle Adjustment)。

代表工具COLMAP(最流行开源SfM系统)、VisualSFM和OpenMVG。

应用场景:SFM是许多三维建模软件(如RealityCapture, Metashape)和在线服务(如谷歌的Street View)的基础,也会作为无人机航拍建模的前端,在数字文化遗产、地图制作等领域应用广泛

SFM与SLAM密切相关,但通常侧重于从无序图像集合中进行离线三维重建。

6.1.3.2 多视图立体(Multi-View Stereo, MVS)

多视图立体是从多张具有重叠部分的已知相机位姿图像中恢复出稠密三维模型,通过结合多个视角的图像立体匹配生成稠密点云或深度图,来提高重建精度和密度。多视图立体是仅依赖于两张图像的双目立体视觉(Stereo Vision)的泛化

MVS 是连接 SfM 和稠密重建的关键桥梁,SfM提供稀疏点云和相机位姿,MVS在此基础上稠密化

原理:MVS高度依赖光度一致性假设,即一个正确的三维点投影到所有可见它的图像中时,其外观应该是相似的。通过三角测量法,对同一个三维点在两个或多个不同视角的图片中对应点(匹配点)即立体匹配,就可以计算出该点的三维坐标

输入:多张图像+ 相机的内部参数(焦距、主点等)和外部参数(相机之间的相对位置)(通常由SfM提供)

流程:1.特征匹配 → 2. 稀疏重建(SfM)→ 3. 稠密匹配(MVS)→ 4. 点云/网格生成。首先通过SfM恢复稀疏点云和相机位姿,然后为每张参考图像估计稠密深度图,最后融合所有深度图生成一致的三维点云或网格模型。

经典算法:PMVS、CMVS、COLMAP 的 MVS 模块。

深度学习方法:MVSNet、Cascade MVSNet、Vis-MVSNet。

应用:倾斜摄影建模、文化遗产数字化

6.1.3.3 视觉SLAM(Simultaneous Localization and Mapping)

目标:在未知环境中,同时估计相机运动轨迹(定位)。

输入:单目/双目/RGB-D 视频流。

输出:

  • 相机位姿序列(轨迹)
  • 稀疏或稠密的 3D 地图(点云或体素)

代表系统:

  • 稀疏 SLAM:ORB-SLAM(基于特征点), VINS-Mono
  • 稠密 SLAM:LSD-SLAM、DTAM、KinectFusion(RGB-D)
  • 语义 SLAM:融合语义分割(如 MaskFusion)

应用:AR 定位(如 Apple ARKit)、服务机器人、无人/车机导航

6.1.3.4 神经辐射场NeRF (Neural Radiance Fields)

NeRF是基于深度学习的一个新兴方法,它通过学习图像中的光照和视角信息,能够生成高度真实的三维场景渲染图像。NeRF通过优化神经网络中的参数来建模三维场景的体积和光照

它不再显式地表示几何(如点云或网格),而是用一个神经网络将三维空间坐标和观察方向映射为该点的颜色和密度。通过输入一组已知相机位姿的图像,训练神经网络学习场景的隐式表示。渲染时,只需通过该网络查询沿视线的点,即可合成出任意视角的新图像,实现高质量且可视角度连续的三维重建效果,重建质量极高(尤其对复杂光照、透明物体)

输入:位置 x 和视角方向 d

输出:该点的体密度 σ 和颜色 c

流程:NeRF用神经网络学习场景的辐射场(颜色+密度),神经网络的学习目标是这样一个函数:输入一个三维空间点的位置 (x, y, z) 和观察方向 (θ, φ),输出该点的颜色 (r, g, b) 和体积密度 σ。即NeRF将场景表示为一个连续的 5D 函数:F(x,y,z,θ,ϕ)→(RGB,σ)(位置 + 观测方向 → 颜色 + 体密度),渲染时,从相机发射光线,在光线上采样点,查询神经网络得到颜色和密度,最后通过体渲染(Volume Rendering)积分得到这条光线对应像素的最终颜色。

核心创新:传统方法显式地表示3D信息(如点云、网格),而NeRF是用一个连续的神经网络隐式地表示一个场景

优势渲染质量极高,能完美捕捉细节和复杂的光照、透明效果。实现了连续的场景表示,没有离散化分辨率限制。

缺点原始NeRF训练和渲染速度慢,难以编辑或提取显式几何(如网格)。

应用:高质量的三维重建、游戏设计、影视特效、虚拟拍摄、数字人、AR/VR 内容生成,元宇宙内容生成、

NeRF 虽然输出是图像,但其内部隐含了完整的三维几何与外观信息,因此被广泛视为新一代三维重建范式。

6.1.3.5 3D Gaussian Splatting(3DGS,三维高斯溅射”)

3DGS是一种显式的、基于点的三维场景表示和新视角渲染技术, 3DGS 不直接输出点云或网格,但它完整编码了场景的几何与外观信息。它不像NeRF那样用一个神经网络隐式地表示场景,而是用一大堆有属性的“泡泡”(即3D高斯球体)来显式地描述场景

每个高斯球体有自己的属性:

  • 位置(中心点):3D坐标。
  • 尺寸(协方差):控制球体在X, Y, Z方向上的伸缩和旋转,决定其形状(可以是球体、椭球体等)。
  • 颜色(外观):通常用球谐函数表示,使得颜色可以随视角变化,从而捕捉镜面反射等效果。
  • 不透明度:控制这个球体对最终图像的贡献程度。

渲染过程(“泼溅”):当要生成一个新视角的图像时,将这些3D高斯球体投影到2D图像平面上,然后按照深度顺序进行快速 alpha 混合,计算出每个像素的最终颜色。这个过程非常高效,可以实现实时渲染。

渲染本质:通过优化高斯参数(位置、协方差、颜色、不透明度)拟合观测图像,整个过程可微分,支持基于梯度的优化,从而隐式完成对真实三维场景的重建。

输入:多视角图像 + 相机位姿(通常由 SfM 提供)
输出:一个显式的 3D 场景表示(由数百万个带属性的 3D 高斯椭球组成),支持实时渲染任意新视角的逼真图像。

优点:

  • 训练极快:在单卡上几分钟完成训练(NeRF 需数小时)
  • 渲染实时:支持交互式应用(VR/AR、游戏)
  • 几何显式:可直接用于编辑、碰撞检测、导出点云
  • 无需神经网络推理:渲染是纯图形学操作

局限:

  • 显存占用高:需存储大量高斯参数(百万级)
  • 对遮挡敏感:alpha 混合依赖深度排序,复杂遮挡可能出错
  • 泛化能力弱:每个场景需单独优化,无法像 NeRF 那样 easily 扩展到新场景(除非结合大模型)
  • 缺乏物理真实性:难以建模透明、发光、次表面散射等效果

3DGS不是 NeRF 的改进版,而是替代性新范式,可视为三维重建的一种新型范式,两者的区别在于NeRF = 隐式神经场 + 体渲染,而3DGS = 显式高斯点云 + 可微分光栅化。

6.2 三维目标感知

基于视觉的 3D 目标感知不止能做 位置、尺寸、朝向、跟踪,还可以扩展到 关键点检测、分割、动作识别、轨迹预测、场景理解、关系推理等。它不仅仅是检测框,而是三维场景理解的核心。

功能按照 静态–动态–场景级 结构

6.2.1 基础感知功能

6.2.1.1 3D目标分类

任务目标:给定一个完整的 3D 物体(如一个点云片段或网格或多个视角的图像),判断它属于哪个预定义类别(如“汽车”、“行人”、“椅子”)。

输入:单个物体的 3D 表示(点云、体素、网格等)

输出:类别标签(如 “car”)

数据集:ModelNet40、ScanObjectNN

应用:3D 模型检索、机器人抓取前的物体识别

技术思路:早期方法常将3D模型渲染为多个角度的2D图像(多视图方法),或将其转换为三维网格(体素方法)再利用成熟的2D/3D卷积神经网络进行分类。里程碑式的PointNet及其改进版PointNet++的出现,开创了直接处理原始点云的范式,更好地保留了几何信息。后续的Point Transformer等模型则引入了注意力机制,能更有效地捕捉点之间的远程依赖关系。

代表方法

  • PointNet / PointNet++(直接处理点云)
  • DGCNN(基于图卷积)
  • 基于多视角投影的 MVCNN
  • VoxNet(基于体素)

注意:这是封闭世界、单物体的分类任务,不涉及定位。

6.2.1.2 3D目标识别(检测)

在复杂场景中找出所有感兴趣的物体并识别其类别,这就是3D目标识别(通常称为3D目标检测)任务。它比分类更复杂,是分类+定位的结合。在实际文献中,“3D 目标识别”常与“3D 目标检测”混用。在自动驾驶等场景中,“识别”往往隐含了“检测”的意思。

简单区分:

  • 分类:输入 = 一个干净的物体 → 输出 = 类别
  • 识别/检测:输入 = 整个场景 → 输出 = 多个(类别 + 3D 位置)

输入:RGB-D图像、多视角图像等

输出:3D目标识别的输出通常是一个结构化的3D边界框,包含以下信息:

{
  "class": "car",                # 物体类别
  "confidence": 0.95,            # 置信度分数
  "center": [10.2, -3.1, 0.5],   # 3D中心坐标 (x, y, z)
  "size": [4.0, 1.7, 1.6],       # 尺寸 (长, 宽, 高)
  "orientation": {               # 朝向信息
    "yaw": 1.2,                  # 水平旋转角 (弧度)
    "pitch": 0.05,               # 俯仰角 (可选)
    "roll": 0.01                 # 滚转角 (可选)
  },
  "bbox_3d": [x1,y1,z1,x2,y2,z2] # 8个顶点坐标 (可选)
}

数据集:自动驾驶场景包含KITTI、nuScenes、Waymo Open Dataset、ONCE等;室内场景包含ModelNet40、ScanNet、SUN RGB-D、ShapeNet等

应用:自动驾驶、增强现实/虚拟现实、工业检测和医疗影像等。

代表方法

  • 基于多视角的方法,将3D点云投影到多个2D视角,用2D CNN处理,如MV3D, AVOD。
  • 基于图的方法,图神经网络:将点云建模为图结构,用GNN处理,如DGCNN, GAT
  • 基于Transformer架构,如Point Transformer, 3DETR
  • 其它如ImVoxelNet

优点:遮挡鲁棒性、不受2D投影视角变化影响,几何信息完整、物理意义明确

缺点:计算复杂度高、遮挡与噪声敏感、数据获取成本高

6.2.1.3 3D位置回归 (3D Localization)

3D位置回归任务预测物体在三维空间中的精确坐标位置(x,y,z)。它是3D目标检测的核心子任务之一,专注于解决"物体在哪里"的几何定位问题,不涉及物体类别识别。与2D定位不同,3D位置回归提供的是真实世界坐标系下的空间位置,对空间理解和物理交互至关重要。

输入:点云数据、RGB-D图像、多视角图像或单目RGB图像(需结合深度估计)

输出:物体在3D空间中的中心坐标,通常表示为:

{
  "center": [10.2, -3.1, 0.5],   # 3D中心坐标 (x, y, z)
  "coordinate_system": "camera", # 坐标系类型(相机/世界/传感器)
  "confidence": 0.92            # 位置预测置信度
}

坐标系可以是相机坐标系(原点在光心)、世界坐标系(全局固定)或传感器坐标系(如LiDAR中心)。

数据集:KITTI 3D目标检测数据集、nuScenes、Waymo Open Dataset、ScanNet、SUN RGB-D、NYU Depth V2等。这些数据集提供精确的3D标注框,从中可提取物体中心位置作为训练目标。

应用:自动驾驶中的障碍物定位、服务机器人的物体抓取、AR/VR中的虚拟物体放置、工业自动化中的零件定位、无人机导航中的目标跟踪等需要精确空间定位的场景。

代表方法

  • 基于回归的方法:PointNet、PointNet++直接从点云回归3D坐标
  • 基于锚框的方法:SECOND、PointRCNN使用3D锚框预测位置偏移
  • 基于关键点的方法:CenterNet3D、Object as Points预测物体中心热力图
  • 基于Transformer的方法:3DETR、Group-Free 3D使用注意力机制定位物体
  • 多模态融合方法:MV3D、AVOD融合图像和点云信息提升定位精度

优点:提供精确的物理空间位置信息、不受2D投影视角变化影响、可直接用于路径规划和物理交互、与传感器坐标系天然对齐便于系统集成。

缺点:对传感器噪声和点云稀疏性敏感、远距离物体定位精度显著下降、单目视觉方法存在深度模糊性、计算复杂度高于2D定位、需要精确的相机标定和坐标系转换。

6.2.1.4 3D目标尺寸估计 (3D Size Estimation)

3D目标尺寸估计任务预测物体在三维空间中的物理尺寸,即长度、宽度和高度(l,w,h)。它是3D目标检测的关键子任务,为3D边界框提供几何约束,确保检测框与物体实际大小精确匹配。尺寸估计通常结合物体类别先验,因为不同类别的物体具有典型的尺寸范围。

输入:点云数据、RGB-D图像、多视角图像或单目RGB图像(需结合深度信息)

输出:物体的三维尺寸参数,通常表示为:

{
  "size": [4.0, 1.7, 1.6],       # 尺寸 (长, 宽, 高) 单位:米
  "class": "car",                # 物体类别(用于尺寸先验)
  "confidence": 0.89,            # 尺寸预测置信度
  "unit": "meters"               # 尺寸单位
}

尺寸通常按标准顺序排列:长(length)沿物体前进方向,宽(width)水平横向,高(height)垂直方向。

数据集:KITTI 3D目标检测数据集(汽车平均尺寸4.5×1.8×1.5m)、nuScenes、Waymo Open Dataset、ScanNet(室内家具尺寸)、SUN RGB-D、ModelNet40等。这些数据集提供精确的3D标注框,从中可提取物体尺寸作为训练目标。

应用:自动驾驶中的碰撞风险评估、机器人抓取的抓取点规划、AR/VR中的虚拟物体比例缩放、工业质检中的产品尺寸合规性检测、无人机避障中的空间间隙计算等需要精确物理尺寸的场景。

代表方法:

  • 基于回归的方法:PointRCNN、SECOND直接回归尺寸残差
  • 基于类别先验的方法:PV-RCNN为每个类别学习平均尺寸,回归相对偏移
  • 多任务学习方法:CenterPoint联合优化尺寸与位置
  • 几何约束方法:利用点云密度和分布特性估计尺寸
  • 神经网络架构:PointNet++、VoxelNet、3DSSD等骨干网络配合尺寸回归头

优点:提供真实的物理尺寸信息、增强3D边界框的几何一致性、结合类别先验可提高估计精度、对空间推理和物理交互至关重要、尺寸信息可用于物体身份验证(如区分轿车和卡车)。

缺点:对点云稀疏性和遮挡敏感、远距离物体尺寸估计误差大、对称物体存在尺寸歧义(如无法区分长宽)、单目视觉方法存在尺度模糊性、不同数据集的尺寸标注标准不一致、小物体尺寸估计精度低。

6.2.1.5 3D朝向角估计(3D Orientation / Yaw Angle Estimation)

3D朝向角估计任务预测物体在三维空间中的旋转姿态,主要关注水平面上的朝向角(yaw角),部分方法还能估计俯仰角(pitch)和滚转角(roll)。它是3D目标检测的关键子任务,解决"物体朝向哪"的问题,使3D边界框能紧密贴合物体的实际方向。对于车辆、行人等具有明显方向性的物体,朝向信息对行为预测和交互规划至关重要。

输入:点云数据、RGB-D图像、多视角图像或单目RGB图像(需结合3D几何信息)

输出:物体的旋转角度信息,通常表示为:

{
  "orientation": {
    "yaw": 1.2,                  # 水平旋转角 (弧度,-π到π)
    "pitch": 0.05,               # 俯仰角 (可选,弧度)
    "roll": 0.01                 # 滚转角 (可选,弧度)
  },
  "class": "car",                # 物体类别(用于朝向先验)
  "confidence": 0.91,            # 朝向预测置信度
  "encoding": "sin_cos"          # 编码方式(角度/正余弦/四元数)
}

为避免角度周期性问题(-π和π在数值上不连续但实际相同),通常使用正余弦编码:(sinθ, cosθ)。

数据集:KITTI 3D目标检测数据集(提供精确的车辆朝向标注)、nuScenes(包含360°物体朝向)、Waymo Open Dataset、Argoverse、ScanNet(室内物体朝向)、SUN RGB-D等。这些数据集的3D标注框包含物体的旋转角度信息。

应用:自动驾驶中的车辆轨迹预测(根据朝向预测行驶方向)、机器人抓取的姿态规划(根据物体朝向调整抓取角度)、AR/VR中的虚拟物体对齐(使虚拟物体与真实物体方向一致)、工业检测中的零件装配验证、无人机跟踪中的目标运动分析等需要理解物体方向的场景。

代表方法:

  • 角度回归方法:MV3D、AVOD直接回归yaw角或其正余弦值
  • 多Bin分类方法:将360°划分为多个角度区间,预测所属bin及残差
  • 关键点方法:预测物体关键点(如车头、车尾),通过关键点连线计算朝向
  • 基于Transformer的方法:3DETR、Group-Free 3D使用注意力机制学习朝向特征
  • 几何约束方法:利用点云分布的主成分分析(PCA)估计主方向

优点:提供精确的物体方向信息、增强3D边界框的几何一致性、对运动预测至关重要(如车辆朝向决定行驶方向)、不受2D图像视角变化影响、结合物理模型可提高预测可靠性、对遮挡具有一定的鲁棒性(可通过可见部分推断整体朝向)。

缺点:对称物体存在180°歧义(如轿车前后相似,难以区分正反)、严重遮挡时朝向估计困难、点云稀疏导致方向特征不明显、单目视觉方法存在深度模糊性影响朝向精度、角度周期性问题增加学习难度、不同坐标系间的朝向转换复杂、对传感器标定误差敏感。

6.2.2 检测扩展功能

6.2.2.1 物体关键点检测 (Keypoint Detection/Pose Estimation)

3D物体关键点检测任务在三维空间中定位物体的特定语义关键点,如人体的关节、车辆的车轮中心、家具的角点等。它是3D感知的基础任务,为姿态估计、形状分析和交互理解提供精确的几何参考点。与2D关键点检测不同,3D关键点检测提供的是真实世界坐标系下的空间位置,具有尺度不变性和视角不变性。

输入:点云数据、RGB-D图像、多视角图像或单目RGB图像(需结合深度估计)

输出:物体关键点的3D坐标集合,通常表示为:

{
  "keypoints": [
    {"name": "front_left_wheel", "position": [2.1, 1.3, 0.4]},
    {"name": "front_right_wheel", "position": [2.1, -1.3, 0.4]},
    {"name": "rear_left_wheel", "position": [-1.8, 1.3, 0.4]},
    {"name": "rear_right_wheel", "position": [-1.8, -1.3, 0.4]}
  ],
  "class": "car",                # 物体类别
  "confidence": [0.95, 0.93, 0.89, 0.91], # 每个关键点置信度
  "coordinate_system": "camera"  # 坐标系类型
}

关键点数量和语义含义由物体类别决定,通常遵循预定义的骨架或模板。

数据集:KITTI 3D关键点数据集、nuScenes(带关键点标注)、Waymo Open Dataset、Human3.6M(人体3D关键点)、CMU Panoptic(多人3D姿态)、ScanNet(室内物体关键点)、Pascal3D+(CAD模型关键点)、ModelNet40(合成关键点)等。这些数据集通过人工标注、运动捕捉或CAD模型投影提供精确的3D关键点位置。

应用:自动驾驶中的车辆部件定位(用于精细化控制)、服务机器人的精确抓取(如抓取杯子把手)、增强现实中的虚拟物体锚定(如将虚拟帽子戴在人头上)、人体动作捕捉与分析、工业零件装配验证、医疗影像中的器官关键点定位(如手术导航)等需要精细几何理解的场景。

代表方法:

  • 热力图回归方法:PointNet++、PVN3D预测每个关键点的3D热力图
  • 直接坐标回归:DenseFusion、FFB6D直接回归关键点坐标偏移
  • 基于图的方法:将点云建模为图,用GNN学习关键点关系
  • 多任务联合学习:与3D检测联合优化,共享特征提取网络
  • Transformer架构:Keypoint Transformer使用自注意力机制定位关键点
  • 几何先验方法:利用物体对称性、部件关系等几何约束提升鲁棒性

优点:提供精确的几何参考点、对物体变形和部分遮挡具有鲁棒性、为高级任务(如姿态估计、形状补全)提供基础、不受2D投影视角变化影响、关键点间关系可编码物体结构信息、可与物理模型结合实现更可靠的交互。

缺点:对点云噪声和稀疏性敏感、关键点定义依赖于物体类别和应用场景、严重遮挡时关键点不可见导致检测失败、不同实例间关键点位置存在自然变异、标注成本极高(需要精确3D位置标注)、对称物体关键点存在歧义(如无法区分左右对称点)、计算复杂度高,实时性挑战大。

6.2.2.2 可通行区域分割

可通行区域分割任务识别环境中机器人或车辆可以安全移动的区域,即"哪里可以走"。它是自动驾驶和移动机器人的核心感知任务,为路径规划和导航提供基础几何信息。与语义分割不同,可通行区域分割更关注几何可行性和安全性,而非物体类别,通常将场景分为"可通行"和"不可通行"两类区域。

输入:单目/双目RGB图像、RGB-D图像、激光雷达点云、多传感器融合数据

输出:可通行区域的像素级或点级分割掩码,通常表示为:

{
  "segmentation_mask": "H×W binary mask",  # 1表示可通行,0表示不可通行
  "confidence_map": "H×W probability map", # 每个像素的可通行置信度
  "free_space_boundary": [[x1,y1], [x2,y2], ...], # 可通行区域边界点
  "coordinate_system": "vehicle"           # 坐标系(车辆/世界)
}

输出可以是二值掩码、概率图或结构化的边界表示,用于下游规划模块。

数据集:KITTI Road Dataset、Cityscapes(drivable area标注)、BDD100K、ApolloScape、nuScenes(包含可行驶区域)、Mapillary Vistas、RUGD(机器人通用驾驶数据集)、SYNTHIA(合成数据集)等。这些数据集提供像素级或矢量化的可通行区域标注,涵盖城市道路、越野地形和室内环境。

应用:自动驾驶车辆的路径规划、服务机器人的室内导航、无人机的低空飞行路径规划、农业机器人的田间作业、轮椅机器人的无障碍通行、仓储物流机器人的路径优化等需要安全移动的场景。在极端天气或低光照条件下,可通行区域分割比目标检测更鲁棒。

代表方法:

  • 基于CNN的方法:ENet、ESPNet、BiSeNet等轻量级网络实现实时分割
  • 多模态融合方法:融合视觉和激光雷达数据提升鲁棒性,如LRR、SNE-RoadSeg
  • 几何约束方法:利用逆透视映射(IPM)将图像转换到鸟瞰图(BEV)空间进行分割
  • Transformer架构:SegFormer、Mask2Former在BEV空间进行可通行区域预测
  • 无监督/自监督方法:利用运动信息或时序一致性减少标注依赖
  • 端到端规划方法:直接从输入预测可通行区域和驾驶指令,如ChauffeurNet

优点:对光照变化和天气条件相对鲁棒、不依赖精确的目标检测(可处理未知障碍物)、计算效率高(相比3D检测)、提供连续的可通行空间信息、与规划模块天然对接、在部分遮挡情况下仍能提供有效信息、可结合地形高度信息处理越野场景。

缺点:对远距离区域精度有限、难以区分不同类型的可通行区域(如人行道vs车行道)、静态场景假设(忽略动态障碍物)、在复杂交叉路口边界模糊、对传感器标定误差敏感、缺乏语义信息(不知道障碍物类型)、在极端天气(浓雾、暴雨)下性能下降、难以处理临时施工区域等非结构化场景。

6.2.3 时序与动态功能

6.2.3.1 3D 目标跟踪 (3D Object Tracking)

3D目标跟踪任务在连续的3D数据序列中(如点云序列或RGB-D视频)持续定位和识别特定目标,建立跨帧的物体身份关联。它解决"同一个物体在不同时间点在哪里"的问题,是3D感知系统的核心时序任务。与2D跟踪不同,3D跟踪在真实世界坐标系中进行,不受视角变化和尺度变化影响,提供更稳定的运动轨迹和物理交互基础。

输入:时序3D数据序列,包括点云序列、RGB-D视频流、多视角图像序列或传感器融合数据(LiDAR+相机+雷达)。通常还需要前一帧的跟踪状态作为初始化。

输出:每个跟踪目标的时序轨迹和状态信息,通常表示为:

{
  "track_id": 42,                # 唯一跟踪ID
  "class": "pedestrian",         # 物体类别
  "trajectory": [                # 时序轨迹(最近N帧)
    {"frame": 100, "center": [2.1, -1.3, 0.0], "size": [0.8, 0.6, 1.8], "yaw": 0.3},
    {"frame": 101, "center": [2.2, -1.4, 0.0], "size": [0.8, 0.6, 1.8], "yaw": 0.4},
    ...
  ],
  "velocity": [0.5, -0.3, 0.0],  # 3D速度向量 (m/s)
  "acceleration": [0.1, 0.0, 0.0], # 3D加速度向量
  "confidence": 0.94,            # 跟踪置信度
  "state": "active"              # 跟踪状态(active/lost/occluded)
}

输出还包括数据关联信息(ID匹配)和运动状态估计。

数据集:nuScenes(带时序标注)、Waymo Open Dataset(tracking subset)、KITTI Tracking Benchmark、Argoverse 2、PandaSet、ONCE Tracking、MOT20(2D基准但有3D扩展)、BMTT(Benchmark for Multi-Object Tracking in 3D)等。这些数据集提供多帧连续标注,包含物体ID、3D位置、尺寸和朝向的时序信息。

应用:自动驾驶中的行为预测和轨迹规划、服务机器人的动态环境导航、无人机对移动目标的跟随、智能监控中的异常行为检测、体育分析中的运动员动作跟踪、增强现实中的动态物体交互、工业自动化中的移动部件监控等需要理解物体运动的场景。

代表方法:

  • 基于卡尔曼滤波的方法:3D-KF、AB3DMOT,结合运动模型和观测更新
  • 基于深度学习的方法:P2B、BAT,用网络学习外观和运动特征
  • 联合检测跟踪方法:JDT-3D、CenterTrack3D,端到端学习检测和关联
  • 多模态融合方法:融合点云、图像和雷达数据提升鲁棒性,如mmMOT
  • Transformer架构:TrackFormer3D、3D-BoT,使用注意力机制建模时序关系
  • 图神经网络方法:将帧间关系建模为图,用GNN进行数据关联
  • 无监督/弱监督方法:利用运动一致性或几何约束减少标注依赖

优点:提供稳定的物体身份和运动轨迹、不受2D视角变化影响、在遮挡情况下仍能保持跟踪(通过3D运动预测)、提供精确的3D速度和加速度信息、与物理世界坐标系对齐便于行为预测、对光照变化和天气条件相对鲁棒、能处理远距离目标(相比2D跟踪)。

缺点:对传感器噪声和点云稀疏性敏感、严重遮挡时ID切换(ID switch)问题、计算复杂度高(特别是多目标场景)、不同传感器间的时序同步要求严格、跟踪初始化失败会导致长期跟踪错误、动态场景中运动模型假设可能失效、对快速运动目标跟踪延迟明显、标注成本极高(需要时序连续标注)。

6.2.3.2 3D 行为/动作识别 (3D Action Recognition)

3D行为/动作识别任务从三维时序数据中识别和分类人体或物体的动作类别,如"行走"、"跌倒"、"挥手"、"抓取"等。它利用3D空间几何信息(如关节位置、物体运动轨迹)建模动作的时空动态特性,相比2D方法具有视角不变性和几何精确性优势。该任务不仅识别"做了什么动作",还能理解动作的执行方式和空间上下文。

输入:3D人体骨架序列(关节3D坐标)、RGB-D视频序列、点云时序数据、多视角RGB视频、惯性传感器(IMU)数据,或上述数据的多模态融合。输入数据通常包含时间维度,长度从几帧到数百帧不等。

输出:动作识别结果,通常表示为:

{
  "action_class": "fall_down",   # 动作类别
  "confidence": 0.96,            # 识别置信度
  "temporal_segment": [45, 78],  # 动作在视频中的时间边界(帧号)
  "key_frames": [52, 63, 70],    # 关键动作帧
  "action_parameters": {         # 动作参数(可选)
    "speed": "fast",
    "direction": "downward"
  },
  "skeleton_trajectory": [...]  # 关键关节运动轨迹(可选)
}

输出可包含单动作分类或多动作时序分割结果。

数据集:NTU RGB+D(最大骨架数据集)、PKU-MMD(长视频动作)、Human3.6M(高精度动作捕捉)、MSR Action3D(深度视频)、SBU Kinect Interaction(双人交互)、UTD-MHAD(多模态动作)、CMU Panoptic(多人场景)、BABEL(大规模人体动作标注)、UAV-Human(无人机视角)等。这些数据集提供精确的3D骨架标注或RGB-D视频,涵盖日常生活、体育、医疗等场景。

应用:智能视频监控中的异常行为检测(如跌倒、打架)、人机交互中的手势控制、体育训练中的动作质量分析、医疗康复中的运动功能评估、虚拟现实中的自然交互、自动驾驶中的行人意图预测、机器人学习中的模仿学习、智能家居中的用户行为理解等需要理解人体动作的场景。

代表方法:

  • 基于骨架的方法:ST-GCN(时空图卷积网络)、2s-AGCN(双流自适应图卷积)、MS-G3D(多尺度图网络)
  • 基于点云的方法:PointNet++、PointTransformer扩展到时序建模
  • 基于RGB-D的方法:HON4D(高阶神经网络)、Lie Group(李群表示)
  • 时序建模架构:LSTM/GRU(循环网络)、TCN(时序卷积)、Video Transformer(时空注意力)
  • 多模态融合方法:融合骨架、RGB、深度和IMU数据,如MMAct、UniFormer
  • 自监督学习方法:利用动作时序一致性进行预训练,减少标注依赖

优点:视角不变性(不受摄像机角度影响)、对部分遮挡具有鲁棒性、精确的空间关系建模(如关节相对位置)、物理意义明确(真实世界坐标)、时序动态建模能力强、能区分外观相似但几何不同的动作(如挥手vs招手)、与物理引擎和机器人控制天然兼容。

缺点:3D数据获取成本高(需要深度相机或多视角系统)、计算复杂度大(时空建模要求高)、标注困难且昂贵(需要精确3D标注)、对传感器噪声和骨架估计误差敏感、在极端遮挡下性能下降、跨场景泛化能力有限、实时性挑战大(尤其在资源受限设备上)、动作类别定义主观且数据集间不一致。

6.2.3.3 轨迹预测 (Trajectory Prediction)

轨迹预测任务预测动态目标(如车辆、行人、自行车)在未来时间窗口内的运动轨迹,即"接下来会去哪里"。它是自动驾驶决策规划系统的核心感知模块,通过理解场景上下文、目标历史运动和交互关系,预测未来3-5秒的精确空间路径。与传统运动模型不同,现代轨迹预测融合多模态感知信息,能处理复杂交互场景和不确定性。

输入:历史轨迹序列(过去1-2秒的3D位置)、当前场景上下文(HD地图、车道线、交通信号)、周围目标状态(位置、速度、朝向)、目标类别信息、有时还包括视觉特征(RGB图像、BEV表示)。输入数据通常以时间序列形式组织,包含空间和语义信息。

输出:预测的未来轨迹及其不确定性,通常表示为:

{
  "track_id": 42,                # 目标ID
  "class": "vehicle",            # 目标类别
  "predicted_trajectories": [    # 多模态预测(K条轨迹)
    {
      "trajectory": [[x1,y1,z1], [x2,y2,z2], ..., [xT,yT,zT]], # 3D轨迹点
      "probabilities": [0.75, 0.15, 0.10], # 每条轨迹概率
      "confidence": 0.92,        # 整体置信度
      "timestamps": [0.1, 0.2, ..., 3.0] # 时间戳(秒)
    }
  ],
  "uncertainty_ellipse": [...], # 位置不确定性椭圆
  "interaction_score": 0.85      # 与其他目标交互强度
}

输出通常包含多条可能轨迹(多模态)及其概率分布,反映预测的不确定性。

数据集:nuScenes(带丰富上下文)、Waymo Open Motion Dataset(大规模轨迹)、Argoverse 2(高精地图+轨迹)、INTERACTION(交互密集场景)、TRAF(真实世界交通)、Lyft Level 5、HighD(高速公路场景)、JAAD(行人行为)、PIE(行人意图)等。这些数据集提供历史轨迹、高精地图、交互标注和未来轨迹真值,涵盖城市、高速、交叉路口等复杂场景。

应用:自动驾驶车辆的决策规划(避障、变道、跟车)、高级驾驶辅助系统(AEB、FCW)、交通流仿真与优化、智能交通管理、服务机器人的动态环境导航、无人机编队控制、体育分析中的运动员轨迹预测、人群疏散模拟等需要预测运动行为的场景。

代表方法:

  • 基于物理模型的方法:恒定速度/加速度模型、卡尔曼滤波
  • 基于机器学习的方法:LSTM/GRU网络、Social LSTM(建模社会交互)
  • 基于图网络的方法:STGAT、CSG(将场景建模为时空图)
  • 基于注意力机制的方法:Trajectory Transformer、Multimodal Transformer
  • 生成式方法:CoverNet(多模态覆盖)、AgentFormer(生成对抗网络)
  • 条件预测方法:LaneGCN(结合车道拓扑)、HiVT(分层矢量Transformer)
  • 端到端规划方法:直接从感知输入预测轨迹和驾驶指令

优点:提供安全关键的预测信息、支持多模态输出(处理不确定性)、融合场景上下文提升准确性、建模目标间交互关系、与规划模块无缝集成、可结合物理约束保证合理性、在复杂场景中表现优于简单外推、支持长期预测(3-5秒)。

缺点:对历史轨迹质量敏感(噪声/丢失数据)、长时预测误差累积严重、极端场景泛化能力有限、多模态预测后处理复杂、计算延迟影响实时性、难以预测罕见或异常行为、不同数据集评估标准不统一、缺乏可解释性(黑盒模型)、对高精地图依赖性强、在密集交互场景中性能下降。

6.2.4 场景与语义理解

6.2.4.1 三维场景语义分割 (3D Semantic Segmentation)

三维场景语义分割任务为三维场景中的每个点或体素分配语义类别标签(如"墙壁"、"地板"、"椅子"),实现对整个3D环境的像素级理解。它扩展了2D语义分割到三维空间,不仅识别"是什么",还精确描述物体在真实世界中的几何分布和空间关系。该任务是三维场景理解的基础,为机器人导航、增强现实和数字孪生等应用提供结构化环境表示。

输入:点云数据(来自LiDAR或深度相机)、RGB-D图像序列、多视角RGB图像(通过MVS生成点云)、体素化3D网格或神经辐射场(NeRF)表示的场景。输入数据包含几何信息,通常还融合颜色、法向量等特征。

输出:每个3D点或体素的语义类别预测,通常表示为:

{
  "point_cloud": "N×3 array of (x,y,z) coordinates",
  "semantic_labels": "N×1 array of class IDs (e.g., 0=wall, 1=floor)",
  "class_probabilities": "N×C array of per-point probabilities",
  "instance_masks": "optional instance-level segmentation",
  "scene_id": "scene_00123",
  "confidence_scores": "N×1 array of prediction confidences"
}

输出可包含概率分布、不确定性估计和实例分割信息。

数据集:ScanNet(室内RGB-D场景)、S3DIS(室内点云)、Semantic3D(大型户外点云)、nuScenes(自动驾驶场景)、KITTI(街景分割)、Waymo Open Dataset、Matterport3D(建筑级室内)、Replica(合成室内)、KITTI-360(城市规模)等。这些数据集提供精确的3D点级语义标注,涵盖室内、城市和自然场景。

应用:服务机器人的室内导航与物体交互、自动驾驶的环境理解、增强现实中的虚拟物体放置与遮挡处理、建筑信息模型(BIM)自动生成、文化遗产数字化保护、工业场景的自动化检测、智能家居的环境感知、无人机的3D环境建图等需要精细场景理解的场景。

代表方法:

  • 点云处理方法:PointNet++、KPConv(核点卷积)、PointCNN(点集卷积)
  • 体素化方法:SparseConvNet、MinkowskiNet(稀疏3D卷积)
  • 投影方法:RangeNet++(将点云投影到球面)、SqueezeSeg(激光雷达鸟瞰图)
  • 图神经网络方法:DGCNN、GACNet(图注意力卷积)
  • Transformer架构:Point Transformer、Stratified Transformer
  • 多模态融合方法:3D-MPA(多视角投影对齐)、JS3C-Net(联合语义-实例分割)
  • 无监督/半监督方法:利用自训练或跨模态一致性减少标注依赖

优点:提供完整的3D场景理解、视角不变性(不受摄像机角度影响)、精确的几何边界描述、对部分遮挡具有鲁棒性、支持物理交互规划、与3D重建和SLAM系统天然兼容、能区分几何相似但语义不同的区域(如桌面vs地板)、提供丰富的上下文信息用于高级推理。

缺点:计算复杂度高(尤其大规模场景)、点云稀疏性和不均匀分布导致分割不一致、标注成本极高(需要逐点标注)、对传感器噪声和离群点敏感、远距离物体分割精度低、类别不平衡问题严重(如"墙壁"点远多于"开关"点)、跨场景泛化能力有限、实时性挑战大(难以达到30+ FPS)、在极端光照或天气条件下性能下降。

6.2.4.2 3D实例分割(3D Instance Segmentation)

3D实例分割任务在三维场景中识别并分离出每个独立的物体实例,为同一类别中的不同物体分配唯一ID(如"椅子1"、"椅子2")。它结合了3D语义分割的类别识别能力和实例区分能力,不仅要回答"是什么",还要回答"有多少个"和"每个在哪里",是实现精确物体级交互的基础任务。

输入:点云数据(来自LiDAR或深度相机)、RGB-D图像序列、多视角RGB图像、体素化3D网格或融合了颜色、法向量、强度等特征的3D表示。输入通常包含几何结构和外观信息,用于区分相邻或重叠的物体实例。

输出:每个3D点的实例ID和类别标签,通常表示为:

{
  "point_cloud": "N×3 array of (x,y,z) coordinates",
  "instance_ids": "N×1 array of instance IDs (e.g., 1, 2, 3)",
  "semantic_labels": "N×1 array of class IDs (e.g., 0=chair, 1=table)",
  "instance_masks": [
    {"instance_id": 1, "class": "chair", "points": [indices], "confidence": 0.95},
    {"instance_id": 2, "class": "chair", "points": [indices], "confidence": 0.92}
  ],
  "bbox_3d": [...]  # 每个实例的3D边界框(可选)
}

输出可包含实例边界、置信度分数和实例间的空间关系。

数据集:ScanNet(室内场景,带实例标注)、S3DIS(斯坦福3D室内)、nuScenes(自动驾驶场景)、KITTI(街景实例分割)、Waymo Open Dataset、Matterport3D(建筑级室内)、SemanticKITTI(激光雷达序列)、3DMatch(局部区域匹配)等。这些数据集提供精确的实例级3D标注,包括点级掩码和实例ID,涵盖室内、城市和动态场景。

应用:服务机器人的精确物体抓取(区分多个相同杯子)、自动驾驶中的物体跟踪与行为预测、增强现实中的多物体交互(如虚拟家具摆放)、工业自动化中的零件计数与质检、数字孪生中的资产建模、医疗影像中的器官分割、人群分析中的个体追踪等需要区分同类物体的场景。

代表方法:

  • 自上而下方法:先检测3D边界框,再分割实例,如3D-MAP、GSPN
  • 自下而上方法:先分割点云,再聚类为实例,如MTML、SGPN
  • 投票机制方法:PointNet++扩展、VoteNet,通过点投票生成实例
  • 图网络方法:3D-BoNet、PointGroup,建模点间关系进行实例分组
  • Transformer架构:3DETR、PointTr,使用注意力机制聚合实例特征
  • 多任务联合方法:JS3C-Net、OccuSeg,联合优化语义、实例和几何约束
  • 无监督/弱监督方法:利用运动一致性或几何先验减少标注依赖

优点:提供物体级别的精确几何表示、区分同类物体的不同实例、支持物理交互和操作规划、对部分遮挡具有鲁棒性(通过3D几何)、与机器人控制系统天然兼容、为多目标跟踪提供基础、在复杂场景中保持实例完整性、支持细粒度场景理解和推理。

缺点:计算复杂度极高(尤其密集场景)、标注成本极其昂贵(需逐实例标注)、对严重遮挡和密集堆叠场景处理困难、实例边界模糊导致分割不精确、远距离小物体实例分割精度低、点云稀疏性导致实例碎片化、实例ID分配不稳定(时序不一致)、实时性挑战大(难以满足>10 FPS需求)、在极端天气或光照条件下性能显著下降。

6.2.4.3 遮挡与截断状态估计(Occlusion & Truncation Awareness)

遮挡与截断状态估计任务量化物体在视觉感知中被其他物体遮挡的程度和被图像边界截断的比例,为感知系统提供完整性评估。它解决"物体有多少部分可见"的问题,帮助下游任务(如3D检测、跟踪)理解观测的可靠性,避免因不完整观测导致的错误决策。该任务在复杂场景中尤为重要,能显著提升感知系统的鲁棒性和安全性。

输入:RGB图像、RGB-D数据、点云、多视角图像序列或3D场景表示,通常与目标检测/分割结果结合使用。输入包含场景几何信息和物体外观特征,用于分析可见性状态。

输出:每个物体的遮挡和截断状态量化指标,通常表示为:

{
  "object_id": 42,
  "occlusion_ratio": 0.35,       # 被遮挡面积比例(0.0-1.0)
  "truncation_ratio": 0.15,      # 被图像边界截断比例(0.0-1.0)
  "visibility_score": 0.50,      # 整体可见性得分
  "occlusion_type": "partial",   # 遮挡类型(none/partial/fully)
  "occluder_ids": [23, 56],      # 遮挡物体ID列表
  "visible_bbox_2d": [...]       # 可见部分的2D边界框
}

输出可包含遮挡区域掩码、置信度分数和时序一致性信息。

数据集:KITTI 3D目标检测数据集(提供遮挡级别标注)、nuScenes(包含可见性标签)、Waymo Open Dataset、Cityscapes(遮挡标注)、PASCAL VOC(部分遮挡标注)、Occluded-Duke(行人遮挡)、Objectron(3D遮挡)、MOTChallenge(多目标跟踪中的遮挡)等。这些数据集通过人工标注或合成数据提供遮挡/截断程度的量化信息。

应用:自动驾驶中的感知置信度加权(遮挡物体降低权重)、服务机器人的安全决策(避免抓取被遮挡物体)、视频监控中的异常行为检测(部分遮挡可能表示可疑行为)、增强现实中的遮挡处理(虚拟物体正确遮挡真实物体)、多目标跟踪中的ID保持(处理短暂遮挡)、3D重建中的完整性评估、无人机避障中的风险评估等需要理解观测完整性的场景。

代表方法:

  • 基于几何的方法:利用3D边界框重叠和深度信息估计遮挡
  • 基于外观的方法:通过颜色、纹理不连续性检测遮挡边界
  • 深度学习方法:Occlusion-Net、Occlusion-Aware Networks预测遮挡掩码
  • 多视角融合方法:通过多视角一致性减少遮挡影响,如MVS-Occ
  • 时序建模方法:利用运动轨迹预测遮挡状态,如Occlusion-Tracking
  • Transformer架构:OcclusionFormer使用注意力机制建模遮挡关系
  • 无监督方法:利用重构误差或一致性损失估计遮挡状态

优点:提升感知系统鲁棒性、提供观测可靠性量化指标、改善3D检测和跟踪性能、支持安全关键决策(如自动驾驶)、减少误检和漏检、增强系统可解释性、对部分遮挡场景保持稳定性、与物理世界几何约束天然一致。

缺点:精确标注极其困难(需要3D遮挡关系)、对传感器噪声敏感、严重遮挡时估计误差大、计算开销增加系统延迟、不同场景遮挡模式差异大导致泛化困难、难以区分遮挡与外观缺失(如物体本身缺失部分)、在动态场景中时序不一致、缺乏统一的评估标准、对远距离小物体遮挡估计精度低。

6.2.4.4 行为意图初步推断(如静止/移动/变道)

行为意图初步推断任务预测动态目标(车辆、行人、自行车等)的短期行为意图类别,如"静止"、"直行"、"变道"、"转弯"、"加速"、"减速"等。它在轨迹预测之前提供高层行为理解,帮助系统快速决策。与详细轨迹预测不同,该任务关注离散的行为类别,计算效率高,适用于实时安全关键场景,为下游规划模块提供早期预警。

输入:目标历史轨迹(过去1-2秒的2D/3D位置)、速度、加速度、朝向角、目标类别、周围环境上下文(车道线、交通信号、相邻车辆状态)、有时还包括视觉特征(如驾驶员头部姿态、行人肢体朝向)。输入通常以时序特征向量形式组织,包含运动学和场景语义信息。

输出:预测的行为意图类别及其置信度,通常表示为:

{
  "track_id": 42,                # 目标ID
  "class": "vehicle",            # 目标类别
  "behavior_intentions": [       # 多模态行为意图(K个可能行为)
    {"behavior": "lane_change_left", "probability": 0.75},
    {"behavior": "continue_straight", "probability": 0.20},
    {"behavior": "decelerate", "probability": 0.05}
  ],
  "primary_intention": "lane_change_left", # 主要意图
  "confidence": 0.88,            # 整体置信度
  "reaction_time": 1.2,          # 预期行为开始时间(秒)
  "context_factors": ["near_lane_marker", "gap_in_target_lane"] # 影响因素
}

输出可包含意图持续时间、不确定性估计和行为触发条件。

数据集:INTERACTION(交互密集场景)、nuScenes(带行为标注)、Waymo Open Motion Dataset、Argoverse 2、TRAF(真实世界交通行为)、JAAD(行人行为意图)、PIE(行人意图估计)、HighD(高速公路变道行为)、Dronet(无人机视角行为)等。这些数据集提供精确的行为标签、触发事件和上下文信息,涵盖城市道路、高速公路、人行横道等场景。

应用:自动驾驶车辆的紧急避撞决策、高级驾驶辅助系统(LDW、AEB)、交通风险评估与预警、服务机器人的行人交互规划、智能交通信号优化、视频监控中的异常行为预警、无人机交通监控、体育分析中的战术意图识别等需要快速行为理解的场景。

代表方法:

  • 基于规则的方法:使用运动学阈值(如速度变化率、横向位移)判断意图
  • 机器学习方法:SVM、随机森林分类历史运动特征
  • 深度学习方法:LSTM/GRU网络、Transformer编码器处理时序数据
  • 图网络方法:Social-STGCNN、MATF建模目标间交互影响
  • 多模态融合方法:融合视觉外观(如驾驶员姿态)和运动特征
  • 注意力机制方法:Behavior Transformer关注关键上下文因素
  • 轻量级实时方法:Mobile-IntentNet用于嵌入式系统
  • 不确定性建模方法:Bayesian Intent Networks提供概率输出

优点:计算效率高(毫秒级响应)、提供早期行为预警、降低决策延迟、与安全机制直接集成、对传感器噪声相对鲁棒、可解释性强(行为类别明确)、支持多模态输出(处理不确定性)、在资源受限设备上实时运行、减少对精确轨迹预测的依赖。

缺点:行为类别定义主观且标准不统一、对罕见行为泛化能力差、严重依赖历史观测质量、无法捕获细微行为差异(如缓慢变道vs急变道)、在复杂交互场景中准确性下降、缺乏时空连续性(相比轨迹预测)、对环境上下文建模不充分、标注成本高(需要行为专家标注)、在极端天气或低光照下性能显著下降、难以处理多目标协同行为。

6.2.4.5 三维关系推理 (3D Relation Reasoning)

三维关系推理任务推断3D场景中物体之间的空间、功能和语义关系,如"椅子在桌子下面"、"杯子在人的右手边"、"门可以打开"等。它超越单个物体识别,理解物体间的交互作用和上下文依赖,为高级场景理解和决策提供基础。该任务结合几何关系(位置、方向)和语义关系(功能、用途),实现深层次的3D场景理解。

输入:3D场景表示(点云、网格、体素)、物体检测结果(3D边界框、类别)、场景图初始结构、有时还包括RGB图像或语言描述。输入包含物体的几何属性(位置、尺寸、朝向)和语义属性(类别、功能),用于计算关系特征。

输出:物体间的关系三元组及其置信度,通常表示为:

{
  "scene_id": "scene_00123",
  "relationships": [
    {
      "subject": {"id": 1, "class": "person"},
      "predicate": "sitting_on",
      "object": {"id": 2, "class": "chair"},
      "confidence": 0.94,
      "spatial_relation": "above"
    },
    {
      "subject": {"id": 2, "class": "chair"},
      "predicate": "under",
      "object": {"id": 3, "class": "table"},
      "confidence": 0.87,
      "spatial_relation": "below"
    }
  ],
  "scene_graph": "graph structure representation",
  "relation_types": ["spatial", "functional", "semantic"]
}

输出可包含关系类型、强度系数和时序动态信息。

数据集:ScanRefer(3D场景+语言描述)、3D-SPS(3D空间关系)、Visual Genome 3D(扩展3D标注)、nuScenes(带交互标注)、SceneVR(虚拟现实场景关系)、3DSSG(3D场景图)、KITTI-360(城市级关系)、Matterport3D(室内关系)等。这些数据集提供物体间关系的详细标注,涵盖空间(上下、左右)、功能(支撑、包含)和语义(属于、用于)关系类型。

应用:服务机器人的任务规划(理解"拿桌上的杯子"需要先移开障碍物)、增强现实中的智能交互(虚拟角色理解场景关系)、自动驾驶的场景理解("行人可能走向停着的车")、智能建筑的自动化控制(基于空间关系优化照明)、3D内容生成(生成符合物理关系的场景)、医疗手术规划(器官间空间关系)、工业装配指导(零件装配顺序)等需要理解物体交互的场景。

代表方法:

  • 几何关系方法:基于3D边界框相对位置计算空间关系
  • 图网络方法:3D-SceneGraph、3D-VRN使用GNN推理关系
  • 多模态融合方法:结合视觉、语言和几何特征,如3D-CLIP
  • Transformer架构:3D-RelationFormer使用自注意力建模关系
  • 符号推理方法:结合神经网络和符号逻辑,如Neural-Symbolic
  • 跨模态对齐方法:对齐3D场景和语言描述,如Scan2Cap
  • 自监督学习方法:利用场景一致性进行预训练,减少标注依赖

优点:提供高级场景理解能力、支持复杂任务规划和推理、增强系统可解释性、对部分遮挡具有鲁棒性(通过关系推断缺失信息)、支持自然语言交互、结合常识知识提升泛化性、为决策提供上下文依据、减少对精确物体检测的依赖。

缺点:关系定义主观且标准不统一、计算复杂度高(尤其大规模场景)、标注成本极其昂贵(需要关系专家标注)、对物体检测错误敏感(错误传播)、在稀疏点云场景中关系推理困难、跨场景泛化能力有限、缺乏统一的评估基准、实时性挑战大(难以满足实时系统需求)、在动态场景中时序关系建模复杂、对罕见关系类型泛化能力差。

6.2.4.6 交互式理解 (Human–Object Interaction in 3D)

交互式理解任务识别和分析三维空间中人体与物体之间的交互行为,如"人坐在椅子上"、"手握杯子"、"开门"等。它不仅检测人体和物体,还理解它们之间的物理接触、功能关系和行为意图,为具身智能和人机交互提供基础。该任务结合3D人体姿态估计、物体检测和关系推理,实现对交互场景的全面理解。

输入:RGB-D视频序列、多视角RGB图像、点云时序数据、3D人体骨架序列,通常还包括场景上下文信息(如房间布局、物体功能属性)。输入数据需要包含人体和物体的几何信息,以及它们之间的空间关系。

输出:人体-物体交互的结构化描述,通常表示为:

{
  "frame_id": 123,
  "human_id": 1,
  "human_pose": "3D skeleton joints",
  "interactions": [
    {
      "object_id": 42,
      "object_class": "chair",
      "interaction_type": "sitting_on",
      "contact_points": [
        {"human_joint": "hip", "object_part": "seat", "confidence": 0.95},
        {"human_joint": "back", "object_part": "backrest", "confidence": 0.88}
      ],
      "interaction_score": 0.92,
      "affordance": "support"
    },
    {
      "object_id": 56,
      "object_class": "cup",
      "interaction_type": "holding",
      "contact_points": [
        {"human_joint": "right_hand", "object_part": "handle", "confidence": 0.97}
      ],
      "interaction_score": 0.96,
      "affordance": "graspable"
    }
  ],
  "scene_context": "kitchen"
}

输出可包含交互强度、持续时间、力估计和意图预测。

数据集:BEHAVE(人体-物体交互)、InterHand2.6M(手-物交互)、EPIC-KITCHENS(厨房交互)、H2O(手-物-物体三元组)、ContactPose(接触点标注)、PROX(人体-场景交互)、3DPW(户外交互)、MoCa(多摄像头交互)、CAD-120(功能交互)等。这些数据集提供精确的3D交互标注,包括接触点、交互类型和功能属性,涵盖室内、厨房、办公等场景。

应用:服务机器人的交互理解(识别用户需求)、增强现实中的自然交互(虚拟物体响应真实动作)、智能监控中的异常行为检测(如跌倒时抓扶)、医疗康复中的动作评估、虚拟现实中的逼真交互、工业机器人的人机协作、智能家居的行为理解、电影特效中的动作捕捉等需要理解人-物交互的场景。

代表方法:

  • 接触建模方法:使用物理接触约束,如Contact-Former
  • 图网络方法:HOI-Graph、H2O-Net建模人体-物体关系图
  • 多模态融合方法:结合视觉、语言和物理先验,如HOTNet
  • Transformer架构:InteractionFormer使用时空注意力
  • 物理约束方法:利用力学原理建模交互力,如PhysHOI
  • 端到端学习方法:直接从输入预测交互关系,如3D-HandNet
  • 自监督方法:利用交互一致性进行预训练,减少标注依赖
  • 跨模态对齐方法:对齐视觉和语言描述,如CLIP-HOI

优点:提供深层次行为理解、支持自然人机交互、对部分遮挡具有鲁棒性(通过交互上下文推断)、增强系统可解释性、结合常识知识提升泛化性、为机器人规划提供物理约束、支持复杂任务分解(如"倒水"包含多个子交互)、减少对精确物体检测的依赖。

缺点:3D交互标注极其困难且昂贵、对传感器噪声和遮挡高度敏感、计算复杂度高(实时性挑战大)、在稀疏点云场景中交互理解困难、跨场景泛化能力有限、缺乏统一的评估标准、对罕见交互类型识别率低、人体姿态估计误差会传播到交互理解、在动态复杂场景中性能下降、对光照和天气条件敏感。

七、其他重要任务

7.1 光学字符识别(OCR)

光学字符识别(OCR)任务将图像中的文本内容自动转换为可编辑的机器编码文本。它解决"图像中写了什么"的问题,是连接视觉信息与语言理解的桥梁。OCR不仅识别字符,还需处理文本布局、字体变化、语言特性等复杂因素,为文档数字化、信息提取和视觉问答等应用提供基础支持。

输入:包含文本的数字图像,如扫描文档、照片中的文字、屏幕截图、手写笔记、车牌、商品包装、自然场景文本(Street View)、表格、多语言混合文本等。输入图像可能包含噪声、模糊、倾斜、复杂背景、低光照、透视变形等挑战性条件。

输出:识别的文本内容及其结构化信息,通常表示为:

{
  "text": "Hello World",
  "confidence": 0.98,
  "bounding_boxes": [
    {"text": "Hello", "box": [x1,y1,x2,y2], "confidence": 0.99},
    {"text": "World", "box": [x1,y1,x2,y2], "confidence": 0.97}
  ],
  "language": "en",
  "layout": "horizontal",
  "orientation": 0.0,
  "char_level_details": [  # 可选字符级细节
    {"char": "H", "box": [x1,y1,x2,y2], "confidence": 0.995}
  ]
}

输出可包含文本置信度、位置信息、语言类型、排版结构和字符级细节。

数据集:ICDAR系列(场景文本检测与识别)、SVT(Street View Text)、IIIT5K(自然场景文本)、COCO-Text、Total-Text(弯曲文本)、FUNSD(文档理解)、SROIE(票据识别)、MJSynth(合成文本)、Synth90k(大规模合成)、CASIA-HWDB(中文手写)、RVL-CDIP(文档分类)等。这些数据集涵盖印刷体、手写体、多语言、弯曲文本、低质量图像等多种场景。

应用:文档数字化(档案、书籍、票据)、车牌识别(交通管理)、银行卡信息提取、身份证识别(KYC流程)、名片扫描、手写笔记转换、辅助视障人士(文字转语音)、教育应用(作业批改)、电商(商品标签识别)、金融(支票处理)、医疗(病历数字化)、智能办公(PDF转换)、搜索引擎(图像文字索引)等需要文本信息提取的场景。

代表方法:

传统OCR pipeline:图像预处理→文本检测→文本识别→后处理,如Tesseract
深度学习检测:EAST、PSENet、DBNet(可微分二值化)用于文本定位
序列识别模型:CRNN(CNN+RNN+CTC)、Attention-OCR、ASTER
变换器架构:TrOCR、Donut(文档理解Transformer)、LayoutLM(布局感知)
端到端方法:Mask TextSpotter、TextFuseNet联合检测与识别
多模态融合:结合视觉和语言模型,如LayoutLMv3、UDoc
自监督学习:利用大规模无标注文本数据预训练,如STR-Tuning
轻量级模型:PP-OCR、EasyOCR优化推理速度和资源消耗

优点:自动化程度高,减少人工录入成本、支持多语言和复杂排版、处理速度快(现代系统可达毫秒级)、可集成到移动设备、对光照变化有一定鲁棒性、支持历史文档保护、提供结构化数据输出、与业务系统无缝集成、在标准化场景中准确率极高(>99%)。

缺点:对手写字体识别精度较低(尤其潦草字迹)、复杂背景中文字检测困难、低质量图像(模糊、低分辨率)性能显著下降、弯曲或透视变形文本识别挑战大、罕见字体和特殊符号识别率低、多语言混合场景处理复杂、计算资源需求较高(尤其端到端深度学习)、训练数据偏差导致特定领域性能不佳、隐私安全问题(敏感文档处理)、缺乏上下文理解能力(仅识别字符,不理解语义)。

7.2 图像检索

图像检索任务根据查询条件(如示例图像、文本描述、草图)从大规模图像库中找出视觉或语义相似的图像。它解决"找相似图片"的问题,是连接用户意图与视觉内容的关键技术。图像检索可分为实例级检索(精确匹配特定物体)和类别级检索(匹配相似语义内容),为搜索引擎、推荐系统和版权保护等应用提供核心支持。

输入:查询内容(示例图像、文本描述、手绘草图、属性标签)和待检索的图像数据库。输入图像可能包含各种视角、光照、遮挡、背景复杂度等变化,查询方式多样且用户意图可能模糊。

输出:按相关性排序的检索结果列表,通常表示为:

{
  "query_id": "q123",
  "results": [
    {"image_id": "img456", "similarity_score": 0.98, "rank": 1},
    {"image_id": "img789", "similarity_score": 0.95, "rank": 2},
    {"image_id": "img101", "similarity_score": 0.92, "rank": 3}
  ],
  "retrieval_time": 0.045,
  "query_type": "image",
  "top_k": 100
}

输出可包含相似度分数、排名位置、检索耗时和可视化结果。

数据集:Oxford5k/Paris6k(地标检索)、UKBench(通用物体)、INRIA Holidays(假期场景)、Google Landmarks Dataset(大规模地标)、Flickr1M(百万级)、COCO(语义检索)、FashionAI(时尚产品)、MIRFlickr(多标签检索)、SOP(商品检索)等。这些数据集提供精确的相似性标注和挑战性场景,涵盖实例检索、语义检索和跨模态检索任务。

应用:搜索引擎(Google Images、百度识图)、电商平台("以图搜同款")、版权保护(侵权检测)、医疗影像(相似病例检索)、安防监控(嫌疑目标检索)、社交媒体(内容推荐)、数字资产管理(照片归档)、艺术创作(风格参考)、教育(教学素材查找)、旅游(景点识别)等需要快速定位视觉内容的场景。

代表方法:

  • 传统特征方法:SIFT、SURF、ORB局部特征+Bow/VLAD聚合
  • 深度学习特征:ResNet、VGG提取全局特征,使用PCA/Whitening后处理
  • 度量学习方法:Triplet Loss、Contrastive Loss优化特征空间
  • 哈希方法:Deep Hashing、Spectral Hashing生成紧凑二进制码
  • 注意力机制:Regional Attention、Multi-scale Attention聚焦关键区域
  • 图网络方法:利用图像关系图优化检索结果
  • 跨模态方法:CLIP、UNITER对齐视觉和文本特征空间
  • 重排序技术:QE(Query Expansion)、Reranking提升精度

优点:处理速度快(尤其哈希方法可达毫秒级)、支持大规模数据库(亿级图像)、用户体验直观("以图搜图")、对视角和光照变化具有鲁棒性、可结合语义理解提升相关性、支持多种查询模态(图像、文本、草图)、可部署到移动设备、与推荐系统无缝集成、在标准化基准上精度极高。

缺点:对严重形变或部分遮挡敏感、细粒度区分能力有限(如区分不同车型)、语义鸿沟问题(视觉相似但语义不同)、计算资源需求高(尤其深度特征提取)、存储开销大(特征库占用空间)、冷启动问题(新图像无特征)、隐私安全风险(敏感内容检索)、评估标准主观(相关性判断因人而异)、跨域泛化能力弱(训练域外性能下降)、实时更新困难(大规模索引重建耗时)。

7.3 视频分类

视频分类任务为整个视频片段分配一个或多个语义类别标签,如"游泳"、"烹饪"、"足球比赛"等。它解决"视频内容是什么"的问题,是视频理解的基础任务。与图像分类不同,视频分类需要建模时序动态信息(动作、事件演变),捕获空间-时间特征,为视频检索、内容审核和行为分析等应用提供高层语义理解。

输入:视频片段(通常为短片段,1-10秒),包含RGB帧序列、光流信息(运动)、音频信号、有时还包括元数据(时长、分辨率)。输入视频可能包含视角变化、光照变化、遮挡、背景干扰、动作速度变化等挑战。

输出:视频类别标签及其置信度,通常表示为:

{
  "video_id": "vid_12345",
  "primary_class": "swimming",
  "confidence": 0.94,
  "top_k_classes": [
    {"class": "swimming", "score": 0.94},
    {"class": "diving", "score": 0.03},
    {"class": "water_polo", "score": 0.02}
  ],
  "temporal_segments": [  # 可选时序分段
    {"start": 0.0, "end": 2.1, "class": "diving"},
    {"start": 2.2, "end": 5.0, "class": "swimming"}
  ],
  "processing_time": 0.125
}

输出可包含多标签预测、时序定位信息和不确定性估计。

数据集:Kinetics(大规模动作识别)、Something-Something(细粒度交互)、UCF101(经典动作数据集)、HMDB51(复杂动作)、ActivityNet(长视频事件)、Charades(室内活动)、EPIC-KITCHENS(第一视角)、TVSeries(电视剧场景)、YouTube-8M(大规模YouTube视频)、Moments in Time(事件识别)等。这些数据集涵盖日常活动、体育、烹饪、医疗等多种场景,提供精确的类别标注和时序信息。

应用:视频搜索引擎(内容理解)、社交媒体内容审核(违规内容检测)、智能电视推荐系统、体育赛事自动分析、医疗手术视频分析、教育视频内容管理、安防监控(异常事件检测)、广告投放(内容定向)、视频摘要生成、版权内容识别等需要理解视频内容的场景。

代表方法

  • 双流网络:Two-Stream Networks融合RGB和光流信息
  • 3D卷积方法:C3D、I3D、SlowFast使用3D卷积捕获时空特征
  • 时序建模方法:TSN(Temporal Segment Networks)、TSM(Temporal Shift Module)
  • Transformer架构:TimeSformer、VideoSwin、ViViT建模长距离时序依赖
  • 多模态融合:结合视觉、音频、文本信息,如AVLNet、MMT
  • 自监督学习:通过时序预测、拼图任务等预训练,如DPC、VideoMAE
  • 轻量级模型:MobileViT、TinyVideoNet优化移动端部署
  • 长视频处理:TRN(Temporal Relation Networks)、TEINet处理长时序

优点:提供高层语义理解、支持大规模视频内容管理、计算效率高(尤其轻量级模型)、对视角变化具有鲁棒性、可结合音频提升精度、支持实时应用(短片段分类)、在标准化数据集上精度高、与推荐系统无缝集成、减少人工审核成本。

缺点:长视频上下文建模困难、细粒度动作区分能力有限(如不同游泳姿势)、对遮挡和快速运动敏感、计算资源需求高(尤其3D CNN)、训练数据偏差导致特定领域性能不佳、缺乏时序细节理解(仅全局标签)、冷启动问题(新类别需要重新训练)、隐私安全问题(敏感内容处理)、在极端光照或低质量视频中性能下降、评估标准主观(多标签场景)。

八、总结

计算机视觉的任务体系丰富且层次分明,从基础的像素处理(图像分类)到复杂的时空理解(视频分析),其最终目标是让机器能够像人类一样“看”和“理解”视觉世界
。随着深度学习,尤其是多模态学习、扩散模型和大语言模型与视觉任务的结合,计算机视觉正在向更通用、更强大的视觉-语言模型发展,以期实现更接近人类水平的视觉感知与推理能力

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容