LLM通过SVG代码理解世界

老白今天刚刚看到一篇论文《VCode: 一个使用SVG作为符号表征的多模态编码基准》（VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation）觉得挺有意思的，跟大家分享下。这文章里面提出了一种全新的方法来帮助AI更好地理解视觉信息。看到这篇文章之前，老白是觉得这似乎是一个很“硬核”的技术难题，但这篇文章稍微做了一下拆解，将他转化成了另外一个很有趣的挑战——如何让AI像人类一样，通过草图或符号去理解图像，而不仅仅停留在“看见”层面，接下来我们简单看看文章里面包含了什么。

背景：为什么要让AI理解图像中的“符号”？

目前，AI在处理语言相关的任务上已经很强大了，比如生成代码、调试程序这些事情，已经不再是难题。但问题是，AI在面对视觉任务时，尤其是涉及编码（用代码形式表示图像信息）的任务时，表现往往不够好。

为什么会这样？传统的图像表示方式主要依赖RGB像素，也就是我们常说的“图片由一个个小方块组成”。虽然这种方式能很好地捕捉图像的外观细节，但它缺乏“抽象能力”。换句话说，AI看到了图像的每一块像素，但它并不知道这些像素背后的意义。

研究者受到人类推理方式的启发，提出了一个新思路：我们人类在理解复杂图像时，往往会用草图或符号来简化思维，比如画一个简笔画来表示一只猫。为什么不让AI也尝试用符号化的方式去理解图像呢？于是，他们选择了SVG（可缩放矢量图形）作为一种新的视觉表示方法。

SVG：让图像变得“可解释”

SVG是什么？简单来说，它是一种用代码描述图像的格式，比如一条直线可以用一段代码表示，一只圆形可以用另一段代码描述。与普通图片不同，SVG不关注像素，而是更关注“这张图片由哪些图形、形状和结构组成”。这种方式不仅让图像更紧凑，还让它更容易被AI理解和处理。

这篇论文的核心思想就是将图像转换成SVG代码，并让AI通过生成这些代码来理解图像的符号化意义。为了验证这个方法，他们还提出了一个基准测试框架——VCode。

VCode：用代码生成来理解图像

VCode的任务很有趣，它挑战AI完成以下目标：给定一张图片，让模型生成一段能准确描述这张图片的SVG代码。这就好比给AI一张猫的图片，让它用代码画出一个“符号化的猫”。

为了让这个测试更有挑战性，研究者覆盖了三个不同的领域/测试集：

常识推理（MM-Vet数据集）：这部分测试AI是否能理解简单的日常的常识图像，比如空间关系像一张桌子上放着几个物品，AI需要用SVG描述这些物品的布局。
专业学科知识（MMMU数据集）：这部分主要针对特定领域的高水平任务，这些任务既需要推理能力也需要编码技能。这里的图像更复杂，比如建筑设计图或者科学示意图，考验AI对专业领域的理解能力。
视觉感知能力（CV-Bench数据集）：这部分主要关注AI对视觉密集场景中的表现，这些场景涉及计数、距离估算以及二维或三维中的相对空间关系。

VCoder：让AI更聪明的框架

为了让AI在这些测试中表现更好，研究者开发了一个叫做VCoder的框架。它主要通过两种方法增强AI的能力：

思维修正（Thinking with Revision）：就像人类在画画时会反复修改一样，VCoder让AI在生成SVG代码后，通过比较中间渲染结果与原始图片，不断优化代码的准确性。
视觉工具辅助（Acting with Visual Tools）：VCoder为AI配备了一些“外部工具”，比如对象检测器和分割器和OCR，帮助它更好地识别图像中的关键结构（物体，物体所在位置，文字）。比如，AI可以通过这些工具轻松识别出图片中的“圆形”和“方形”，然后用SVG代码把它们表示出来。

thinkingWithRevision.png

实验发现：现有AI还不够“聪明”

研究结果显示，目前一些最前沿的视觉语言模型（VLMs），比如Claude-4-Opus（一个非常强大的AI模型），虽然在推理能力上很强，但在生成忠实的SVG代码上仍然有困难。而VCoder通过引入上述两种机制，让AI的表现有了显著提升，得分提高了12.3个百分点。

更有趣的是，人类在处理渲染SVG问题时的表现，与AI模型的模式非常相似。这说明，将视觉信息符号化可能不仅对AI有用，对人类的视觉理解也有一定的参考意义。

这项研究的意义：让AI识图更“像人”

这篇论文最重要的贡献在于，它为AI的视觉理解提供了一个新的视角。通过使用SVG这种符号化的表示方法，AI不再只是“看见”图像，而是能够像人类一样，从图像中提取更深层次的意义。这不仅让AI的视觉理解能力更强，还为它在更复杂的任务（比如建筑设计、科学研究）中的应用提高了可能性。

总结

总的来说，这篇论文提出了一种既创新又实用的思路：用SVG代码作为AI理解图像的桥梁。虽然目前的AI在这方面还有很多不足，但是我们已经在向这个方向努力了。

reference: https://arxiv.org/html/2511.02778v1

LLM通过SVG代码理解世界