老白今天刚刚看到一篇论文《VCode: 一个使用SVG作为符号表征的多模态编码基准》(VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation)觉得挺有意思的,跟大家分享下。这文章里面提出了一种全新的方法来帮助AI更好地理解视觉信息。看到这篇文章之前,老白是觉得这似乎是一个很“硬核”的技术难题,但这篇文章稍微做了一下拆解,将他转化成了另外一个很有趣的挑战——如何让AI像人类一样,通过草图或符号去理解图像,而不仅仅停留在“看见”层面,接下来我们简单看看文章里面包含了什么。
背景:为什么要让AI理解图像中的“符号”?
目前,AI在处理语言相关的任务上已经很强大了,比如生成代码、调试程序这些事情,已经不再是难题。但问题是,AI在面对视觉任务时,尤其是涉及编码(用代码形式表示图像信息)的任务时,表现往往不够好。
为什么会这样?传统的图像表示方式主要依赖RGB像素,也就是我们常说的“图片由一个个小方块组成”。虽然这种方式能很好地捕捉图像的外观细节,但它缺乏“抽象能力”。换句话说,AI看到了图像的每一块像素,但它并不知道这些像素背后的意义。
研究者受到人类推理方式的启发,提出了一个新思路:我们人类在理解复杂图像时,往往会用草图或符号来简化思维,比如画一个简笔画来表示一只猫。为什么不让AI也尝试用符号化的方式去理解图像呢?于是,他们选择了SVG(可缩放矢量图形)作为一种新的视觉表示方法。
SVG:让图像变得“可解释”
SVG是什么?简单来说,它是一种用代码描述图像的格式,比如一条直线可以用一段代码表示,一只圆形可以用另一段代码描述。与普通图片不同,SVG不关注像素,而是更关注“这张图片由哪些图形、形状和结构组成”。这种方式不仅让图像更紧凑,还让它更容易被AI理解和处理。
这篇论文的核心思想就是将图像转换成SVG代码,并让AI通过生成这些代码来理解图像的符号化意义。为了验证这个方法,他们还提出了一个基准测试框架——VCode。
VCode:用代码生成来理解图像
VCode的任务很有趣,它挑战AI完成以下目标:给定一张图片,让模型生成一段能准确描述这张图片的SVG代码。这就好比给AI一张猫的图片,让它用代码画出一个“符号化的猫”。
为了让这个测试更有挑战性,研究者覆盖了三个不同的领域/测试集:
常识推理(MM-Vet数据集):这部分测试AI是否能理解简单的日常的常识图像,比如空间关系像一张桌子上放着几个物品,AI需要用SVG描述这些物品的布局。
专业学科知识(MMMU数据集):这部分主要针对特定领域的高水平任务,这些任务既需要推理能力也需要编码技能。这里的图像更复杂,比如建筑设计图或者科学示意图,考验AI对专业领域的理解能力。
视觉感知能力(CV-Bench数据集):这部分主要关注AI对视觉密集场景中的表现,这些场景涉及计数、距离估算以及二维或三维中的相对空间关系。
VCoder:让AI更聪明的框架
为了让AI在这些测试中表现更好,研究者开发了一个叫做VCoder的框架。它主要通过两种方法增强AI的能力:
思维修正(Thinking with Revision):就像人类在画画时会反复修改一样,VCoder让AI在生成SVG代码后,通过比较中间渲染结果与原始图片,不断优化代码的准确性。
-
视觉工具辅助(Acting with Visual Tools):VCoder为AI配备了一些“外部工具”,比如对象检测器和分割器和OCR,帮助它更好地识别图像中的关键结构(物体,物体所在位置,文字)。比如,AI可以通过这些工具轻松识别出图片中的“圆形”和“方形”,然后用SVG代码把它们表示出来。
thinkingWithRevision.png
实验发现:现有AI还不够“聪明”
研究结果显示,目前一些最前沿的视觉语言模型(VLMs),比如Claude-4-Opus(一个非常强大的AI模型),虽然在推理能力上很强,但在生成忠实的SVG代码上仍然有困难。而VCoder通过引入上述两种机制,让AI的表现有了显著提升,得分提高了12.3个百分点。
更有趣的是,人类在处理渲染SVG问题时的表现,与AI模型的模式非常相似。这说明,将视觉信息符号化可能不仅对AI有用,对人类的视觉理解也有一定的参考意义。
这项研究的意义:让AI识图更“像人”
这篇论文最重要的贡献在于,它为AI的视觉理解提供了一个新的视角。通过使用SVG这种符号化的表示方法,AI不再只是“看见”图像,而是能够像人类一样,从图像中提取更深层次的意义。这不仅让AI的视觉理解能力更强,还为它在更复杂的任务(比如建筑设计、科学研究)中的应用提高了可能性。
总结
总的来说,这篇论文提出了一种既创新又实用的思路:用SVG代码作为AI理解图像的桥梁。虽然目前的AI在这方面还有很多不足,但是我们已经在向这个方向努力了。
reference: https://arxiv.org/html/2511.02778v1
