Pix2Seq v2:视觉任务的统一序列接口

A Unified Sequence Interface for Vision Tasks

15 Jun 2022

https://arxiv.org/abs/2206.07669

Authors: Ting Chen, Saurabh Saxena, Lala Li, Tsung-Yi Lin, David J. Fleet, Geoffrey Hinton

The first three authors contributed equally

Abstract: While language tasks are naturally expressed in a single, unified, modeling framework, i.e., generating sequences of tokens, this has not been the case in computer vision. As a result, there is a proliferation of distinct architectures and loss functions for different vision tasks. In this work we show that a diverse set of "core" computer vision tasks can also be unified if formulated in terms of a shared pixel-to-sequence interface. We focus on four tasks, namely, object detection, instance segmentation, keypoint detection, and image captioning, all with diverse types of outputs, e.g., bounding boxes or dense masks. Despite that, by formulating the output of each task as a sequence of discrete tokens with a unified interface, we show that one can train a neural network with a single model architecture and loss function on all these tasks, with no task-specific customization. To solve a specific task, we use a short prompt as task description, and the sequence output adapts to the prompt so it can produce task-specific output. We show that such a model can achieve competitive performance compared to well-established task-specific models. 

虽然语言任务自然地表达在一个统一的建模框架中,即生成标记序列,但在计算机视觉中并非如此。因此,针对不同的视觉任务,不同的体系结构激增,功能缺失。在这项工作中,我们表明,如果按照共享的像素到序列接口来制定,那么一组不同的“核心”计算机视觉任务也可以统一。我们专注于四项任务,即目标检测、实例分割、关键点检测和图像字幕,所有这些任务都具有不同类型的输出,例如边界框或密集遮罩。尽管如此,通过将每个任务的输出表示为具有统一接口的离散标记序列,我们表明可以在所有这些任务上训练具有单一模型架构和损失函数的神经网络,而无需特定于任务的定制。为了解决特定的任务,我们使用一个简短的提示作为任务描述,序列输出根据提示进行调整,以便生成特定于任务的输出。我们表明,与成熟的任务特定模型相比,这样的模型可以实现有竞争力的性能。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 字符串 1.什么是字符串 使用单引号或者双引号括起来的字符集就是字符串。 引号中单独的符号、数字、字母等叫字符。 ...
    mango_2e17阅读 7,550评论 1 7
  • 《闭上眼睛才能看清楚自己》这本书是香海禅寺主持贤宗法师的人生体悟,修行心得及讲学录,此书从六个章节讲述了禅修是什么...
    宜均阅读 10,154评论 1 25
  • 前言 Google Play应用市场对于应用的targetSdkVersion有了更为严格的要求。从 2018 年...
    申国骏阅读 64,742评论 15 98
  • 第七章:理性的投资观 字数: 1.投资要围绕目的进行 投资的目的是为了挣钱。投资的除了金钱还有时间和精力也是一种投...
    幸福萍宝阅读 3,384评论 1 2
  • 本文转载自微信公众号“电子搬砖师”,原文链接 这篇文章会以特别形象通俗的方式讲讲什么是PID。 很多人看到网上写的...
    这个飞宏不太冷阅读 6,973评论 2 15