Qwen2.5-VL 技术报告

摘要

我们介绍Qwen2.5-VL，这是Qwen视觉-语言系列的最新旗舰模型，它在基础能力和创新功能方面都取得了显著进展。Qwen2.5-VL在理解和与世界互动方面实现了重大飞跃，通过增强的视觉识别、精确的物体定位、强大的文档解析和长视频理解等功能。Qwen2.5-VL的一个突出特点是能够准确地使用边界框或点定位物体。它能够从发票、表单和表格中提取强大的结构化数据，并对图表、图示和布局进行详细分析。为了处理复杂输入，Qwen2.5-VL引入了动态分辨率处理和绝对时间编码，使其能够处理不同大小的图像和长达数小时的视频，并进行秒级事件定位。这使得该模型能够原生感知空间尺度和时间动态，而无需依赖传统的归一化技术。通过从零开始训练一个原生动态分辨率的视觉变换器（ViT），并结合窗口注意力技术，我们显著降低了计算开销，同时保持了原生分辨率。因此，Qwen2.5-VL不仅在静态图像和文档理解方面表现出色，也作为一个互动视觉代理，在操作计算机和移动设备等现实场景中具备推理、工具使用和任务执行的能力。该模型在各个领域实现了强大的泛化能力，无需任务特定的微调。Qwen2.5-VL提供三种尺寸，满足从边缘人工智能到高性能计算等多样化的使用案例。旗舰模型Qwen2.5-VL-72B与最先进的模型如GPT-4o和Claude 3.5 Sonnet相匹配，特别是在文档和图示理解方面表现优秀。较小的Qwen2.5-VL-7B和Qwen2.5-VL-3B模型在资源受限环境中也超越了类似竞争者，提供强大的能力。此外，Qwen2.5-VL保持着强大的语言性能，保留了Qwen2.5 LLM的核心语言能力。

1 简介

大型视觉语言模型（LVLMs）（OpenAI，2024；Anthropic，2024a；Team等，2023；Wang等，2024f）代表了人工智能的一个关键突破，标志着多模态理解和交互的变革性方法。通过无缝集成视觉感知与自然语言处理，这些先进的模型正在根本上重塑机器如何在不同领域解释和分析复杂信息。尽管多模态大型语言模型取得了显著进展，但这些模型当前的能力可以比作三明治饼干的中间层——在各种任务中表现出色，但在卓越性能方面仍有欠缺。细粒度视觉任务构成了这个比喻的基础层。在本版的Qwen2.5-VL中，我们致力于探索细粒度感知能力，旨在为LVLMs建立坚实基础并创造一个能够在实际应用中发挥作用的放大器。该框架的顶层是多模态推理，通过利用最新的Qwen2.5 LLM和采用多模态问答数据构建得到了增强。各种研究促进了多模态大型模型的发展，包括架构设计、视觉输入处理和数据策划。推动LVLMs进展的主要动力之一是架构上的持续创新。在（Alayrac等，2022；Li等，2022a；2023b；Liu等，2023b;a；Wang等，2024i；Zhang等，2024b；Wang等，2023）中提出的研究逐步塑造了当前的范式，该范式通常由视觉编码器、跨模态投影器和LLM组成。细粒度感知模型已成为另一个关键领域。像（Xiao等，2023；Liu等，2023c；Ren等，2024；Zhang等，2024a；d；Peng等，2023；Deitke等，2024）这样的模型推动了在详细视觉理解方面可能性的边界。Omni（Li等，2024g；2025b；Ye等，2024）和MoE（Riquelme等，2021；Lee等，2024；Li等，2024h；c；Wu等，2024b）的架构也激励了LVLMs的未来发展。视觉编码器的增强（Chen等，2023；Liu等，2024b；Liang等，2025）和分辨率提升（Li等，2023c；Ye等，2023；Li等，2023a）在提高实际视觉理解质量方面发挥了关键作用。策划更具多样性场景和更高质量的数据是训练先进LVLMs的必要步骤。提出的努力（Guo等，2024；Chen等，2024d；Liu等，2024a；Chen等，2024a；Tong等，2024；Li等，2024a）对这一事业具有重要的推动作用。

然而，尽管视觉语言模型取得了显著进展，但目前仍面临开发瓶颈，包括计算复杂性、有限的上下文理解、较差的细粒度视觉感知以及在不同序列长度下表现不一致。

在本报告中，我们介绍了最新的工作 Qwen2.5-VL，它延续了 Qwen 系列的开源理念，在各项基准测试中实现甚至超越顶尖的闭源模型。从技术上讲，我们的贡献有四个方面：（1）我们在视觉编码器中实现了窗口注意机制，以优化推理效率；（2）我们引入了动态帧率采样，将动态分辨率扩展到时间维度，让模型能够在不同采样率下全面理解视频；（3）我们通过对齐绝对时间，在时间域升级了 MRoPE，从而促进了更复杂的时间序列学习；（4）我们在高质量数据的策划上做了重大努力，使得预训练和监督微调的规模进一步扩大，从 1.2 万亿个标记增加到 4.1 万亿个标记。Qwen2.5-VL 的亮点如下：

• 强大的文档解析能力：Qwen2.5-VL 将文本识别升级为全文档解析，在处理多场景、多语言和各种内置文档（手写文稿、表格、图表、化学公式和乐谱）方面表现出色。

• 各格式间的精准对象定位：Qwen2.5-VL 提高了在检测、指向和计数对象方面的准确性，支持绝对坐标和 JSON 格式，适用于高级空间推理。

• 超长视频理解和细粒度视频定位：我们的模型将原生动态分辨率扩展到时间维度，增强了对持续数小时的视频理解能力，同时能在几秒钟内提取事件片段。

• 针对计算机和移动设备增强的代理功能：利用先进的定位、推理和决策能力，提升模型在智能手机和计算机上的代理功能。

图1：Qwen2.5-VL 框架展示了视觉编码器与语言模型解码器的结合，用于处理多模态输入，包括图像和视频。视觉编码器旨在处理其原生分辨率的输入，并支持动态帧率采样。不同大小的图像和具有不同帧率的视频帧被动态映射为不同长度的标记序列。值得注意的是，MRoPE 将时间 ID 与时间维度上的绝对时间对齐，使模型能够更好地理解时间动态，例如事件的节奏和精确的时刻定位。处理后的视觉数据随后输入 Qwen2.5 LM 解码器。我们重新设计了视觉变换器（ViT）架构，加入了先进的组件，如带有 SwiGLU 激活的 FFN、用于归一化的 RMSNorm，以及基于窗口的注意机制，以提高性能和效率。

2 方法

在本节中，我们首先概述Qwen2.5-VL系列模型的架构更新，并提供数据和训练细节的概览。

2.1 模型架构

Qwen2.5-VL的整体模型架构由三个组件组成：

大语言模型：Qwen2.5-VL系列采用大型语言模型作为其基础组件。该模型使用Qwen2.5 LLM的预训练权重进行初始化。为了更好地满足多模态理解的需求，我们将1D RoPE (旋转位置编码) 修改为与绝对时间对齐的多模态旋转位置编码。

视觉编码器：Qwen2.5-VL的视觉编码器采用重新设计的Vision Transformer (ViT)架构。在结构上，我们结合了2D-RoPE和窗口注意力，以支持原生输入分辨率，同时加速整个视觉编码器的计算。在训练和推理过程中，输入图像的高度和宽度都被调整为28的倍数，然后再输入到ViT中。视觉编码器通过将图像分割成步长为14的图像块来处理图像，从而生成一组图像特征。我们将在第2.1.1节中提供对视觉编码器的更详细介绍。

基于MLP的视觉-语言融合器：为了解决图像特征长序列带来的效率挑战，我们采用一种简单而有效的方法，在将特征序列输入到大型语言模型（LLM）之前对其进行压缩。具体而言，我们没有直接使用视觉Transformer（ViT）提取的原始图像块特征，而是首先将空间上相邻的四组图像块特征进行分组。然后，将这些分组后的特征进行拼接，并通过一个两层多层感知机（MLP）将其投影到与LLM中使用的文本嵌入对齐的维度。这种方法不仅降低了计算成本，还提供了一种灵活的方式来动态压缩不同长度的图像特征序列。

2.1.1 快速高效的视觉编码器

视觉编码器在多模态大型语言模型 (MLLM) 中扮演着至关重要的角色。为了解决因原始分辨率输入导致的训练和推理过程中的计算负载不平衡问题，我们重新设计了 Vision Transformer (ViT) 架构。一个关键问题源于处理不同大小的图像时产生的二次方计算复杂度。为了缓解这个问题，我们在大多数层中引入了窗口注意力机制，从而确保计算成本与图像块的数量呈线性关系，而不是二次方关系。在我们的架构中，只有四层使用完整的自注意力机制，而其余层则使用窗口注意力机制，最大窗口尺寸为 112×112（对应于 8×8 的图像块）。小于 112×112 的区域在不进行填充的情况下进行处理，从而保留其原始分辨率。这种设计允许模型以原始输入分辨率进行操作，避免了不必要的缩放或失真。

对于位置编码，我们采用 2D 旋转位置嵌入 (RoPE) 来有效地捕捉 2D 空间中的空间关系。此外，为了更好地处理视频输入，我们将我们的方法扩展到 3D 图像块划分。具体来说，我们使用 14×14 的图像块作为基本单元，这与传统的 ViT 处理静态图像的方式一致。对于视频数据，我们将两个连续的帧分组在一起，从而显著减少了输入到语言模型的 token 数量。这种设计不仅保持了与现有架构的兼容性，而且还提高了处理连续视频数据时的效率。

为了简化整体网络结构，我们使ViT架构更紧密地与大型语言模型（LLMs）的设计原则对齐。具体来说，我们采用RMSNorm（Zhang & Sennrich, 2019）进行归一化处理，并采用SwiGLU（Dauphin et al., 2017）作为激活函数。这些选择增强了计算效率，并提高了模型视觉和语言组件之间的兼容性。

在训练方面，我们从头开始训练重新设计的ViT。训练过程包括几个阶段，包括CLIP预训练、视觉-语言对齐和端到端微调。为了确保模型在不同输入分辨率下的鲁棒性，我们在训练期间采用原生分辨率下的动态采样。图像根据其原始宽高比随机采样，使模型能够有效地泛化到各种分辨率的输入。这种方法不仅提高了模型的适应性，还确保了在不同大小的视觉数据上进行稳定而高效的训练。

2.1.2 原生动态分辨率和帧率

Qwen2.5-VL在空间和时间维度上都进行了改进，以有效地处理各种多模态输入。

在空间维度上，Qwen2.5-VL可将不同尺寸的图像动态转换为具有相应长度的tokens序列。与归一化坐标的传统方法不同，我们的模型直接使用输入图像的实际尺寸来表示边界框、点和其他空间特征。这使得模型能够固有地学习尺度信息，从而提高其处理不同分辨率图像的能力。

对于视频输入，Qwen2.5-VL采用了动态帧率（FPS）训练和绝对时间编码。通过适应可变的帧率，该模型可以更好地捕捉视频内容的时间动态。与其他采用文本时间戳或利用额外头部来实现时间定位的方法不同，我们引入了一种新颖而高效的策略，将MRoPE ID直接与时间戳对齐。这种方法允许模型通过时间维度ID之间的间隔来理解时间节奏，而无需任何额外的计算开销。

2.1.3 对齐绝对时间的多模态旋转位置嵌入

位置嵌入对于在视觉和语言模态中建模序列数据至关重要。在Qwen2-VL中引入的多模态旋转位置嵌入（MRoPE）的基础上，我们扩展了其功能，以更好地处理视频中的时间信息。

Qwen2-VL中的MRoPE将位置嵌入分解为三个不同的组成部分：时间、高度和宽度，从而有效地对多模态输入进行建模。对于文本输入，所有三个组成部分使用相同的位置ID，使得MRoPE在功能上等同于传统的1D RoPE（Su et al., 2024）。对于图像，时间ID在视觉token中保持不变，而高度和宽度组成部分则根据每个token在图像中的空间位置分配唯一的ID。在处理视频时，视频被视为帧的序列，时间ID为每一帧递增，而高度和宽度组成部分的赋值模式与静态图像相同。

然而，在Qwen2-VL中，MRoPE中的时间位置ID与输入帧的数量相关联，没有考虑到内容变化的速度或视频中事件的绝对时间。为了解决这个限制，Qwen2.5-VL引入了一个关键的改进：将MRoPE的时间分量与绝对时间对齐。如图1所示，通过利用时间ID之间的间隔，模型能够学习到在具有不同FPS采样率的视频中一致的时间对齐。

2.2 预训练

在本节中，我们首先介绍预训练数据集的构建方法，然后概述整体训练流程和配置。

2.2.1 预训练数据

与 Qwen2-VL 相比，我们大幅扩展了预训练数据的规模，从 1.2 万亿 tokens 增加到大约 4 万亿 tokens。我们的预训练数据集通过多种方法构建，包括清洗原始网络数据、合成数据等。该数据集包含各种多模态数据，例如图像描述、图文交错数据、光学字符识别 (OCR) 数据、视觉知识（例如，名人、地标、植物和动物识别）、多模态学术问题、定位数据、文档解析数据、视频描述、视频定位和基于代理的交互数据。在整个训练过程中，我们仔细调整了不同阶段中这些数据类型的组成和比例，以优化学习效果。

交错图像-文本数据 对于多模态学习而言，交错图像-文本数据至关重要，它具有三个关键优势：（1）通过同步的视觉和文本线索实现上下文学习 (Alayrac et al., 2022)；（2）在图像缺失时保持强大的纯文本能力 (Lin et al., 2024)；以及（3）包含广泛的通用信息。然而，目前许多可用的交错数据缺乏有意义的文本-图像关联，并且通常包含噪声，这限制了其在复杂推理和创造性生成方面的效用。

为了应对这些挑战，我们开发了一个用于评分和清洗数据的流程，以确保仅使用高质量、相关的交错数据。我们的流程包括两个步骤：标准的数据清洗 (Li et al., 2024e)，然后是使用内部评估模型的四阶段评分系统。评分标准包括：（1）纯文本质量，（2）图像-文本相关性，（3）图像-文本互补性，以及（4）信息密度平衡。这种细致的方法提高了模型执行复杂推理和生成连贯的多模态内容的能力。

以下是对图像-文本评分标准的描述：

图像-文本相关性：分数越高，表示图像与文本之间的联系越紧密，图像能够有意义地补充、解释或扩展文本，而不仅仅是装饰。

信息互补性：分数越高，反映图像和文本之间互补的信息越多。两者都应提供独特的细节，共同构成完整的叙述。

信息密度平衡性：分数越高，意味着图像和文本之间的信息分布更加均衡，避免文本或图像信息过多，并确保两者之间适当的平衡。

使用绝对位置坐标进行数据对齐。我们采用原生分辨率训练，旨在实现对世界更准确的感知。相比之下，相对坐标无法有效地表示图像中物体的原始尺寸和位置。为了解决这一局限性，Qwen2.5-VL 在训练期间使用基于输入图像实际尺寸的坐标值来表示边界框和点。这种方法确保了模型能够更好地捕捉物体的真实世界尺度和空间关系，从而提高物体检测和定位等任务的性能。

为了提高对齐能力的泛化性，我们开发了一个包含边界框和带指代表达式的点的大型综合数据集，利用了公开数据集和专有数据。我们的方法包括将数据合成为各种格式，包括 XML、JSON 和自定义格式，并采用复制粘贴增强（Ghiasi 等人，2021）以及使用现成的模型（如 Grounding DINO (Liu 等人，2023c) 和 SAM (Kirillov 等人，2023)）进行合成等技术。这种方法有助于更稳健地评估和推进对齐能力。

为了提升模型在开放词汇目标检测方面的性能，我们将训练数据集扩展到包含超过10,000个目标类别。此外，为了提高模型在极端目标检测场景下的有效性，我们在查询中合成了不存在的目标类别，并构建了包含每个目标的多个实例的图像数据。

为了确保卓越的基于点的目标定位能力，我们构建了一个综合性的指向数据集，其中包括公开的和合成的数据。具体来说，数据来源包括来自PixMo（Deitke et al., 2024）的公开指向和计数数据、公开可用的目标定位数据（来自目标检测和实例分割任务）以及由自动化流程合成的用于生成指向图像特定细节的精确指向数据。

文档全方位解析 为了训练 Qwen2.5-VL，我们合成了大量的文档数据，用于文档全方位解析。传统的文档内容解析方法通常依赖于单独的模型来处理版面分析、文本提取、图表解读和插图处理。相比之下，Qwen2.5-VL 旨在使通用模型具备解析、理解和转换文档格式的综合能力。具体来说，我们将各种元素融入文档中，例如表格、图表、公式、自然或合成图像、乐谱和化学方程式。这些元素都以 HTML 格式统一格式化，将版面布局信息和插图描述集成到 HTML 标签结构中。我们还根据典型的阅读顺序丰富了文档布局，并将每个模块（例如段落和图表）的坐标包含在基于 HTML 的真实标签中。这种创新方法允许以标准化和统一的方式表示任何文档的完整信息，包括其布局、文本、图表和插图。因此，Qwen2.5-VL 实现了多模态文档元素的无缝集成，从而促进了更高效、更准确的文档理解和转换。

以下是 QwenVL HTML 格式：

此格式确保所有文档元素都以结构化且易于访问的方式呈现，从而使 Qwen2.5-VL 能够高效地处理和理解文档。
OCR 数据：收集并整理来自不同来源的数据以提高 OCR 性能，包括合成数据、开源数据和内部收集的数据。合成数据通过视觉文本生成引擎生成，以产生高质量的文本图像。为了支持更广泛的语言并增强多语言能力，我们引入了一个大型多语言 OCR 数据集。该数据集包括对各种语言的支持，如法语、德语、意大利语、西班牙语、葡萄牙语、阿拉伯语、俄语、日语、韩语和越南语。该数据集经过精心整理，以确保多样性和质量，同时利用高质量的合成图像和真实世界的自然场景图像。这种结合确保了在各种语言环境下的稳健性能，并提高了模型对不同文本外观和环境条件的适应性。对于图表类型数据，我们使用包括 matplotlib、seaborn 和 plotly 在内的可视化库合成了 100 万个样本，涵盖了条形图、关系图和热图等图表类别。关于表格数据，我们通过离线端到端表格识别模型处理了 600 万个真实世界样本，随后过滤掉了低置信度表格、重叠表格和单元格密度不足的表格。

视频数据：为了确保在理解具有不同帧率（FPS）的视频数据时具有更强的鲁棒性，我们在训练期间动态采样 FPS，以在训练数据集中实现更均匀的 FPS 分布。此外，对于长度超过半小时的视频，我们通过有针对性的合成流程合成多帧字幕，专门构建了一组长视频字幕。关于视频定位数据，我们以基于秒的格式和时-分-秒-帧（hmsf）格式制定时间戳，确保模型能够准确理解并以各种格式输出时间。

智能体数据 我们增强感知和决策能力，以构建 Qwen2.5-VL 的智能体能力。在感知方面，我们收集移动端、网页端和桌面端平台的屏幕截图。我们使用合成数据引擎来生成屏幕截图的描述和 UI 元素定位标注。描述任务帮助 Qwen2.5-VL 理解图形界面，而定位任务帮助它对齐元素的外观和功能。在决策方面，我们首先将移动端、网页端和桌面端平台上的操作统一为具有共享动作空间的功能调用格式。从开源数据收集并由智能体框架（Wang et al., 2025; 2024b;c）在虚拟环境中合成的一组带标注的多步骤轨迹被重新格式化为功能格式。我们进一步通过人工和模型标注者（Xu et al., 2024）为每个步骤生成推理过程。具体而言，给定一个真实的操作，我们在屏幕截图中突出显示它。然后，我们向标注者提供全局查询，以及此操作之前和之后的屏幕截图，并要求他们编写推理内容以解释此操作背后的意图。使用基于模型的过滤器来筛选掉低质量的推理内容。这种推理内容可防止 Qwen2.5-VL 过度拟合真实的操作，并使其在现实场景中更具鲁棒性。

2.2.2 训练方案

我们使用 DataComp (Gadre et al., 2023) 和一些内部数据集从头开始训练 Vision Transformer (ViT)，作为视觉编码器的初始化，同时利用预训练的 Qwen2.5 大语言模型 (LLM) (Yang et al., 2024a) 作为 LLM 组件的初始化。如表 2 所示，预训练过程分为三个不同的阶段，每个阶段采用不同的数据配置和训练策略，以逐步增强模型的能力。
在第一阶段，仅训练 Vision Transformer (ViT)，以提高其与语言模型的对齐性，为多模态理解奠定坚实的基础。此阶段的主要数据来源包括图像描述、视觉知识和 OCR 数据。精心选择这些数据集是为了培养 ViT 提取有意义的视觉表示的能力，这些表示可以有效地与文本信息集成。
在第二阶段，所有模型参数都被解冻，并且模型在各种多模态图像数据上进行训练，以增强其处理复杂视觉信息的能力。此阶段引入了更复杂和需要更多推理的数据集，例如交错数据、多任务学习数据集、视觉问答 (VQA)、多模态数学、基于代理的任务、视频理解和纯文本数据集。这些数据集加强了模型在视觉和语言模态之间建立更深层连接的能力，使其能够处理日益复杂的任务。

在第三阶段，为了进一步提升模型对更长序列的推理能力，整合了视频、以及基于代理的数据，同时增加了序列长度。这使得模型能够以更高的精度处理更高级和复杂的多模态任务。通过扩展序列长度，模型能够处理更长的上下文，这对于需要长程依赖和复杂推理的任务尤其有益。

为了解决不同图像尺寸和文本长度带来的挑战，这些挑战可能导致训练期间计算负载不平衡，我们采取了一种策略来优化训练效率。主要的计算成本来自LLM和视觉编码器。鉴于视觉编码器的参数相对较少，并且我们引入了窗口注意力以进一步降低其计算需求，因此我们专注于平衡不同GPU上LLM的计算负载。具体来说，我们根据数据样本对应的LLM输入序列长度动态地打包数据样本，从而确保一致的计算负载。在第一和第二阶段，数据被均匀打包到序列长度为8,192，而在第三阶段，序列长度增加到32,768，以适应模型增强的处理更长序列的能力。

2.3 后训练

Qwen2.5-VL的后训练对齐框架采用双阶段优化范式，包括监督式微调（SFT）和直接偏好优化（DPO）（Rafailov et al., 2023）。这种分层对齐策略将参数高效的领域自适应与人类偏好蒸馏相结合，通过不同的优化目标解决表征基础和行为改进问题。

监督式微调 (SFT) 旨在通过有针对性的指令优化，弥合预训练表征与下游任务需求之间的差距。在此阶段，我们采用 ChatML 格式 (Openai, 2024) 来构建指令遵循数据，有意地与预训练数据模式相区别，同时保持与 Qwen2-VL (Wang et al., 2024e) 的架构一致性。这种格式转换实现了三个关键的适配：1) 用于多模态轮换的显式对话角色标记，2) 将视觉嵌入与文本指令一起进行结构化注入，以及 3) 通过格式感知的打包来保留跨模态的位置关系。通过在这种增强的模式下将模型暴露于精心策划的多模态指令-响应对，SFT 能够在保持预训练特征完整性的同时实现高效的知识迁移。

2.3.1 指令数据

监督微调 (SFT) 阶段采用精心策划的数据集，旨在增强模型在各种模态下的指令遵循能力。该数据集包含大约200万条条目，纯文本数据（50%）和多模态数据（50%）之间均匀分布，其中包括图文和视频-文本组合。多模态数据的包含使模型能够有效地处理复杂的输入。值得注意的是，尽管纯文本和多模态条目占比相同，但由于嵌入的视觉和时间信息，多模态条目在训练期间会消耗更多的token和计算资源。该数据集主要由中文和英文数据组成，并辅以补充的多语种条目，以支持更广泛的语言多样性。

数据集的结构旨在反映不同级别的对话复杂性，包括单轮和多轮交互。这些交互通过从单张图像输入到多张图像序列的各种场景进一步情境化，从而模拟真实的对话动态。查询来源主要来自开源存储库，并辅以精选的购买数据集和在线查询数据。这种组合确保了广泛的覆盖范围，并增强了数据集的代表性。

为了应对广泛的应用场景，该数据集包含针对通用视觉问答（VQA）、图像描述、数学问题求解、编码任务和安全相关查询的专门子集。此外，还构建了用于文档和光学字符识别（Doc和OCR）、定位、视频分析和智能体交互的专用数据集，以增强特定领域的熟练程度。有关数据的详细信息可在论文的相应章节中找到。这种结构化和多样化的组成确保了SFT阶段能够有效地将预训练的表示与下游多模态任务的细微需求对齐，从而培养稳健且具有上下文感知能力的模型性能。

2.3.2 数据过滤流程

训练数据的质量是影响视觉-语言模型性能的关键因素。
开源和合成数据集通常表现出显著的变异性，常常包含噪声、冗余或低质量的样本。因此，严格的数据清洗和过滤流程对于解决这些问题至关重要。低质量的数据可能导致预训练表示与下游任务需求之间的次优对齐，从而削弱模型有效处理复杂多模态任务的能力。因此，确保高质量的数据对于实现稳健可靠的模型性能至关重要。
为了应对这些挑战，我们实施了一个两阶段的数据过滤流程，旨在系统地提高有监督微调（SFT）数据集的质量。该流程包括以下阶段：

第一阶段：领域特定分类 在初始阶段，我们采用 Qwen2-VL-Instag，这是一个专门的分类模型，源于 Qwen2-VL-72B，用于对问答（QA）对进行分层分类。该模型将 QA 对组织成八个主要领域，例如编码和规划，这些领域又被细分为 30 个细粒度的子类别。例如，主要领域“编码”被细分为子类别，包括代码调试、代码生成、代码翻译和代码理解。这种分层结构有助于实现领域感知和子领域感知的过滤策略，从而使流程能够优化针对每个类别特定特征量身定制的数据清洗流程。因此，这提高了监督式微调 (SFT) 数据集的质量和相关性。

第二阶段：领域定制过滤 第二阶段涉及领域定制过滤，该过滤整合了基于规则和基于模型的方法，以全面提高数据质量。鉴于文档处理、光学字符识别 (OCR) 和视觉定位等领域的性质各异，每个领域可能都需要独特的过滤策略。下面，我们将概述应用于这些领域的通用过滤策略。

基于规则的过滤 采用预定义的启发式方法来消除低质量或有问题的条目。具体而言，对于与文档处理、OCR 和视觉定位任务相关的数据集，会识别并删除重复模式，以防止扭曲模型的学习过程并确保最佳性能。此外，还会排除包含不完整、截断或格式不正确的响应的条目——这在合成数据集和多模态上下文中很常见。为了保持相关性并遵守道德标准，也会丢弃不相关或可能导致有害输出的查询和答案。这种结构化的方法确保数据集符合道德准则并满足特定于任务的要求。

基于模型的过滤 通过利用基于 Qwen2.5-VL 系列训练的奖励模型，进一步提炼数据集。这些模型跨多个维度评估多模态问答对。对查询的复杂性和相关性进行评估，仅保留那些具有适当挑战性且在上下文中相关的示例。根据正确性、完整性、清晰度、与查询的相关性和帮助性来评估答案。在视觉定位任务中，特别注意验证视觉信息的准确解释和利用。这种多维评分确保只有高质量的数据才能进入 SFT 阶段。

2.3.3 拒绝采样增强推理能力
为了补充我们结构化数据过滤流程，我们采用拒绝采样作为一种策略来优化数据集并增强视觉-语言模型 (VLM) 的推理能力。对于需要复杂推理的任务，例如数学问题求解、代码生成和特定领域的视觉问答 (VQA)，这种方法尤其重要。先前的研究表明，纳入思维链 (CoT) Wei et al. (2022) 推理可以显著提高模型的推理性能。(DeepSeek-AI et al., 2024) 我们的后训练实验证实了这一点，突出了结构化推理过程对于实现高质量结果的重要性。

拒绝采样过程从包含真实标注的数据集开始。这些数据集经过精心策划，包含需要多步骤推理的任务，例如数学问题求解、代码生成和特定领域的 VQA。我们使用 Qwen2.5-VL 模型的中间版本，评估生成的答案与真实答案的匹配程度。只有模型输出与预期答案相符的样本才会被保留，从而确保数据集完全由高质量、准确的示例组成。

为了进一步提高数据质量，我们应用额外的约束来过滤掉不良输出。具体来说，我们排除表现出代码切换、长度过长或重复模式的答案。这些标准确保了 CoT 推理过程的清晰性和连贯性，这对于下游应用至关重要。

将CoT推理应用于视觉-语言模型的一个关键挑战在于它们对文本和视觉模态的依赖。中间推理步骤可能无法充分整合视觉信息，要么忽略相关的视觉线索，要么错误地解读它们。为了解决这个问题，我们开发了基于规则和模型驱动的过滤策略，以验证中间推理步骤的准确性。这些机制确保CoT过程中的每一步都能有效地整合视觉和文本模态。尽管做出了这些努力，但实现最佳的模态对齐仍然是一个持续的挑战，需要进一步的改进。

通过拒绝采样生成的数据显著提高了模型的推理能力。通过迭代地提炼数据集并移除低质量或错误的样本，我们使模型能够从强调准确和连贯推理的高保真示例中学习。这种方法不仅增强了模型处理复杂任务的能力，也为未来视觉-语言建模的改进奠定了基础。

2.3.4 训练方案

Qwen2.5-VL 的后训练过程包含两个阶段：监督微调 (SFT) 和直接偏好优化 (DPO)，这两个阶段都冻结了 Vision Transformer (ViT) 的参数。在 SFT 阶段，模型在多样化的多模态数据上进行微调，包括图像-文本对、视频和纯文本，这些数据来源于通用 VQA、拒绝采样以及专门的数据集，例如文档和 OCR、定位 (Grounding)、视频和 Agent 相关任务。DPO 阶段则专门关注图像-文本和纯文本数据，利用偏好数据来使模型与人类偏好对齐，每个样本仅处理一次，以确保高效优化。这种简化的流程增强了模型的跨模态推理和特定任务性能，同时保持与用户意图的一致性。

3 实验

在本节中，我们首先介绍整体模型，并将其与当前最先进 (SoTA) 的模型进行比较。然后，我们评估该模型在各种子能力方面的性能。

3.1 与 SoTA 模型的比较

实验部分评估了 Qwen2.5-VL 在各种数据集上的性能，并将其与最先进的模型进行比较，例如 Claude-3.5-Sonnet-0620 (Anthropic, 2024a)、GPT-4o-0513 (OpenAI, 2024)、InternVL2.5 (Chen et al., 2024d) 以及不同规模的 Qwen2-VL (Wang et al., 2024e)。在大学水平的问题中，Qwen2.5-VL-72B 在 MMMU (Yue et al., 2023) 上取得了 70.2 的分数。对于 MMMU-Pro (Yue et al., 2024)，Qwen2.5-VL-72B 的得分为 51.1，超过了之前的开源最先进模型，并达到了与 GPT-4o 相当的性能。

在与数学相关的任务中，Qwen2.5-VL-72B 展示了强大的能力。在 MathVista (Lu et al., 2024) 上，它取得了 74.8 的分数，超过了之前开源最先进的 72.3 分。对于 MATH-Vision (Wang et al., 2024d)，Qwen2.5-VL-72B 的得分为 38.1，而 MathVerse (Zhang et al., 2024c) 取得了 57.6 的分数，两者都显示出与其他领先模型相比具有竞争力的结果。

对于一般的视觉问答，Qwen2.5-VL-72B 在多个基准测试中表现出色。在 MMbench-EN (Liu et al., 2023d) 上，它取得了 88.6 的分数，略微超过了之前最佳的 88.3 分。该模型在 MuirBench (Wang et al., 2024a) 中也表现良好，得分为 70.7，在 BLINK (Fu et al., 2024c) 中得分为 64.4。在 MTVQA (Tang et al., 2024) 的多语言能力评估中，Qwen2.5-VL-72B 取得了 31.7 的分数，展示了其强大的多语言文本识别能力。在诸如 MMVet (Yu et al., 2024) 和 MM-MT-Bench (Agrawal et al., 2024) 等主观评估中，Qwen2.5-VL-72B 的得分分别为 76.2 和 7.6，展示了出色的自然对话体验和用户满意度。

3.2 纯文本任务上的表现

为了严格评估指令微调模型在纯文本任务上的表现，如表4所示，我们选择了几项具有代表性的基准测试，以评估模型在各种领域的能力，包括通用任务（Wang et al., 2024j; Gema et al., 2024; White et al., 2024）、数学和科学任务（Rein et al., 2023; Hendrycks et al., 2021; Cobbe et al., 2021）、编码任务（Chen et al., 2021; Cassano et al., 2023）以及对齐任务（Zhou et al., 2023）。我们将Qwen2.5-VL与几个规模相似的大型语言模型（LLMs）进行了比较。结果表明，Qwen2.5-VL不仅在多模态任务上取得了最先进（SoTA）的性能，而且在纯文本任务上也表现出领先的性能，展示了其在各种评估标准下的多功能性和稳健性。

3.3 定量结果

3.3.1 通用视觉问答

为了全面评估模型在通用视觉问答（VQA）和对话方面的能力，我们进行了广泛的实验，涵盖了各种数据集。如表3所示，Qwen2.5-VL在各种VQA任务、主观评估、多语言场景和多图像问题中均表现出最先进的性能。具体而言，它在MMBench系列 (Liu et al., 2023d)、MMStar (Chen et al., 2024c)、MME (Fu et al., 2023)、MuirBench (Wang et al., 2024a)、BLINK(Fu et al., 2024c)、CRPE (Wang et al., 2024h)、HallBench (Guan et al., 2023)、MTVQA (Tang et al., 2024)、MME-RealWorld (Zhang et al., 2024f)、MMVet (Yu et al., 2024) 和 MM-MT-Bench (Agrawal et al., 2024) 等基准数据集上表现出色。

在视觉细节理解和推理领域，Qwen2.5-VL-72B在MMBench-EN-V1.1数据集上实现了88.4%的准确率，超过了之前的最先进模型，如InternVL2.5 (78B) 和 Claude-3.5 Sonnet-0620。同样，在MMStar数据集上，Qwen2.5-VL获得了70.8%的分数，优于该基准测试中的其他领先模型。这些结果突显了该模型在各种语言环境中的稳健性和适应性。

此外，在高分辨率的真实世界场景中，特别是在MME-RealWorld基准测试上，Qwen2.5-VL展现了最先进的性能，得分达到63.2，表明其对真实环境具有广泛的适应性。此外，在MuirBench数据集上评估的多图像理解任务中，Qwen2.5-VL取得了领先的70.7分，进一步突显了其卓越的泛化能力。总而言之，这些结果表明Qwen2.5-VL在解决各种场景下的通用视觉问答（VQA）任务方面具有强大的通用性和有效性。

值得注意的是，即使是较小规模的Qwen2.5-VL版本，特别是Qwen2.5-VL-7B和Qwen2.5-VL-3B，也表现出极具竞争力的性能。例如，在MMStar数据集上，Qwen2.5-VL-7B取得了63.9%的成绩，而Qwen2.5-VL-3B则获得了55.9%的成绩。这表明Qwen2.5-VL的架构不仅强大，而且具有可扩展性，即使参数较少也能保持强大的性能。

3.3.2 文档理解与OCR

我们评估了我们的模型在一系列不同的OCR、图表和文档理解基准测试上的表现。表5展示了Qwen2.5-VL模型与顶级模型在以下OCR相关基准测试上的性能比较：AI2D (Kembhavi et al., 2016), TextVQA (Singh et al., 2019), DocVQA (Mathew et al., 2021b), InfoVQA (Mathew et al., 2021a), ChartQA (Masry et al., 2022), CharXiv (Wang et al., 2024k), SEED-Bench-2-Plus (Li et al., 2024b), OCRBench (Liu et al., 2023e), OCRBench_v2 (Fu et al., 2024b), CC-OCR (Yang et al., 2024b), OmniDocBench (Ouyang et al., 2024), VCR (Zhang et al., 2024e)。

对于多场景、多语言以及各种内置（手写、表格、图表、化学公式和数学表达式）文档的元素解析的OCR相关解析基准测试，
如CC-OCR和OmniDocBench，Qwen2.5-VL-72B模型凭借精心策划的训练数据和LLM模型的卓越能力，创造了新的最先进水平。

在场景文本、图表、示意图和文档等OCR相关理解基准测试中，Qwen2.5-VL模型凭借良好的理解能力取得了令人印象深刻的性能。值得注意的是，在综合性的OCR相关理解基准测试中，如专注于信息图表的InfoVQA，以及涵盖图表、地图和网页等富文本场景的SEED-Bench-2-Plus，Qwen2.5-VL-72B取得了显著的成果，大幅超越了InternVL2.5-78B等强大的竞争对手。此外，对于OCR相关的综合性基准测试，如包含广泛OCR相关解析和理解任务的OCRBench_v2，Qwen2.5-VL模型也取得了最佳性能，在英语和中文赛道上分别大幅超越了最佳模型Gemini 1.5-Pro 9.6%和20.6%。

3.3.3 空间理解

理解空间关系对于开发能够像人类一样理解和与世界互动的AI模型至关重要。在大型视觉-语言模型中，视觉定位允许基于自然语言查询或描述，精确地定位和识别图像中的特定对象、区域或元素。这种能力超越了传统的对象检测，通过建立视觉内容和语言上下文之间的语义关系，促进了更细致和上下文感知的视觉推理。我们评估了Qwen2.5-VL在指称表达式理解基准测试（Kazemzadeh et al., 2014; Mao et al., 2016）、野外对象检测（Li et al., 2022b）、自建点定位基准测试和CountBench（Paiss et al., 2023）上的定位能力。我们将Qwen2.5-VL的视觉定位能力与其他领先的LVLM进行比较，包括Gemini、Grounding-DINO（Liu et al., 2023c）、Molmo（Deitke et al., 2024）和InternVL2.5。

Qwen2.5-VL在不同的基准测试中取得了领先的性能，从框定位到点定位再到计数。通过为Qwen2.5-VL配备框定位和点定位能力，它能够理解、定位和推理图像中某些部分的非常细节。对于开放词汇对象检测，Qwen2.5-VL在ODinW-13上取得了43.1 mAP的良好性能，超过了大多数LVLM，并迅速缩小了通用模型和专业模型之间的差距。此外，Qwen2.5-VL解锁了基于点的定位能力，使其能够精确定位某个对象的非常细节，这在过去很难用边界框表示。Qwen2.5-VL的计数能力也取得了很大进展，在使用“先检测后计数”风格的提示下，Qwen2.5-VL-72B在CountBench上实现了93.6的领先准确率。

3.3.4 视频理解与定位

我们评估了我们的模型在各种视频理解和定位任务中的表现，使用的基准测试包含从几秒到几小时不等的视频。表8展示了Qwen2.5-VL模型与顶级专有模型在以下视频基准测试上的性能比较：Video-MME (Fu et al., 2024a), Video-MMMU (Hu et al., 2025), MMVU (Zhao et al., 2025), MVBench (Li et al., 2024d), MMBench-Video (Fang et al., 2024), LongVideoBench (Wu et al., 2024a), EgoSchema (Mangalam et al., 2023), PerceptionTest (Patraucean et al., 2024), MLVU (Zhou et al., 2024), LVBench (Wang et al., 2024g), TempCompass (Liu et al., 2024c) 和 Charades-STA (Gao et al., 2017)。值得注意的是，在LVBench和MLVU上，这两个基准测试通过问答任务评估长视频理解能力，Qwen2.5-VL-72B取得了显著的成果，明显优于GPT-4o等强劲的竞争对手。

通过利用所提出的同步MRoPE，Qwen2.5-VL增强了其在时间敏感型视频理解方面的能力，具有改进的时间戳引用、时间定位、密集字幕以及其他功能。在Charades-STA数据集上，该数据集评估以精确时间戳准确定位事件或活动的能力，Qwen2.5-VL-72B取得了令人印象深刻的mIoU分数50.9，从而超越了GPT-4o的性能。对于所有评估的基准测试，我们将每个视频分析的最大帧数限制为768帧，视频token总数不超过24,576个。

3.3.5 代理 (Agent)

多模态模型中的代理能力对于使这些模型能够有效地与现实世界的设备交互至关重要。我们通过各个方面评估 Qwen2.5-VL 的代理能力。UI 元素定位通过 ScreenSpot (Cheng et al., 2024) 和 ScreenSpot Pro (Li et al., 2025a) 进行评估。离线评估在 Android Control (Li et al., 2024f) 上进行，而在线评估则在包括 AndroidWorld (Rawles et al., 2024)、MobileMiniWob++ (Rawles et al., 2024) 和 OSWorld (Xie et al., 2025) 在内的平台上进行。我们将 Qwen2.5-VL-72B 的性能与其他突出模型进行比较，例如 GPT-4o (OpenAI, 2024)、Gemini 2.0 (Deepmind, 2024)、Claude (Anthropic, 2024b)、Aguvis-72B (Xu et al., 2024) 和 Qwen2-VL-72B (Wang et al., 2024e)。结果如表 9 所示。

Qwen2.5-VL-72B 在 GUI 定位基准测试中表现出卓越的进步。它在 ScreenSpot 上实现了 87.1% 的准确率，与 Gemini 2.0 (84.0%) 和 Claude (83.0%) 展开了激烈的竞争，同时在 ScreenSpot Pro 上以 43.6% 的准确率树立了新的标杆——远远超过了 Aguvis-72B (23.6%) 及其基础模型 Qwen2-VL-72B (1.6%)。凭借这些卓越的定位能力，Qwen2.5-VL-72B 在所有离线评估基准测试中都显著优于基线模型，差距很大。在在线评估中，由于定位能力有限，一些基线模型难以完成任务。因此，我们将 Set-of-Mark (SoM) 应用于这些模型的输入。结果表明，Qwen2.5-VL-72B 可以在 AndroidWorld 和 MobileMiniWob++ 上超越基线模型，并在 OSWorld 上实现与基线模型相当的在线评估性能，而无需辅助标记。这一观察结果表明，Qwen2.5-VL-72B 能够在真实和动态环境中充当代理。

4 结论

我们推出了 Qwen2.5-VL，这是一个最先进的视觉-语言模型系列，在多模态理解和交互方面取得了显著进展。凭借在视觉识别、物体定位、文档解析和长视频理解方面的增强能力，Qwen2.5-VL 在静态和动态任务中均表现出色。其原生动态分辨率处理和绝对时间编码使其能够稳健地处理各种输入，而窗口注意力机制在不牺牲分辨率保真度的情况下降低了计算开销。Qwen2.5-VL 适用于从边缘 AI 到高性能计算的广泛应用。旗舰模型 Qwen2.5-VL-72B 在文档和图表理解方面与 GPT-4o 和 Claude 3.5 Sonnet 等领先模型相媲美甚至超越，同时在纯文本任务中保持了强大的性能。较小的 Qwen2.5-VL-7B 和 Qwen2.5-VL-3B 变体优于同等规模的竞争对手，提供了效率和多功能性。Qwen2.5-VL 为视觉-语言模型树立了新的基准，展示了卓越的泛化能力和跨领域的任务执行能力。其创新为更智能和交互式的系统铺平了道路，弥合了感知和实际应用之间的差距。

5 作者

核心贡献者：白硕, 陈克勤, 刘雪静, 王佳林, 葛文斌, 宋思博, 党凯, 王鹏, 王世杰, 唐骏, 钟虎门, 朱元治, 杨明坤, 李兆海, 万建强, 王鹏飞, 丁伟, 付哲人, 徐逸恒, 叶嘉博, 张曦, 谢天宝, 程泽森, 张航, 杨志博, 徐海洋, 林俊扬
贡献者（按字母顺序排列）：安阳, 惠彬元, 于博文, 程晨, 刘大一恒, 洪帆, 黄飞, 刘佳伟, 徐进, 涂建洪, 曾建元, 张杰, 王金凯, 张建伟, 周靖人, 杨可欣, 李梅, 闫明, 倪娜, 门睿, 姜松涛, 邓晓东, 黄晓明, 周锡明, 任星璋, 范阳, 张益畅, 朱亦恺, 刘玉琼, 郭志芳

Qwen2.5-VL 技术报告