LVLM系列论文阅读(2)

论文信息

论文题目:Visual Instruction Tuning
论文链接2304.08485.pdf (arxiv.org)
机构信息:University of Wisconsin Madison,Microsoft Research,Columbia University

摘要

使用 machine-generated instruction-following 数据对LLM进行指令微调已被证明可以提高LLM在新任务的zero-shot 的能力。我们首次尝试使用自然语言的Prompt让GPT-4来生成多模态语言-图像指令跟踪数据。然后在这些生成的数据进行指令微调,最终形成了LLaVA:Large Language and Vision Assistant ,一个端到端训练的多模态大模型,它包含了视觉编码器和LLM,用于通用的视觉和语言理解。为了便于未来对多模态大模型的研究,我们构建了两个具有挑战性的面向应用任务的评估基准。

介绍

  • LLaVA的动机:研究一个通用的多模态大模型,它可以有效地遵循多模态的视觉和语言指令,按照符合人类的意图的方式完成各种现实世界的任务。然而,当前的方法都是针对特定的任务就设计特定的模型进行求解。除此之外,语言仅用于描述图像的内容。虽然这使得语言在将视觉信号映射到语言语义方面发挥重要作用——人类交流的共同渠道,但它导致模型无法直观阅读图像信息,导致交互性有限,对用户指令的适应性有限。

  • 在本文中,我们提出了视觉指令微调,即首次尝试将指令微调扩展到语言图像多模态空间,为构建通用视觉助手铺平了道路。特别是,我们的论文有以下贡献:1)多模态指令微调数据集。2)多模态大模型。3)多模态指令微调benchmark

GPT辅助图像指令微调数据集生成

  • 受GPT模型在文本注释任务中的成功的启发,我们基于广泛存在的图像对数据,利用ChatGPT/GPT-4生成图像的注释,最终形成多模态指令跟踪数据收集。
顶部的块显示了用于提示GPT的标题和方框等上下文,而底部的块显示了三种类型的响应。请注意,视觉图像并不是用于提示GPT的,我们只在这里作为参考显示它。
  • 对于图像Xv及其相关的字幕Xc,很自然地创建一组问题Xq,目的是大模型描述图像内容。例如,我们可以构建这样的输入输出对:Human:Xq Xv<STOP> Assistance:Xc<STOP>。当然这样构造的输入输出对过于简单,事实上,我们需要借助GPT生成更加高质量的图像-文本数据。由于我们仅仅输入文本来提示GPT生成数据,因此,我们使用的是:(i)字幕通常从不同的角度描述视觉场景;(ii)边界框通常将场景中的对象本地化,每个框对对象概念及其空间位置进行编码。用这种方式,我们就可以将图片转化成文本的形式输入到GPT中。

  • 我们通常提示GPT生成一下的question-answer对:

  1. 对话。我们设计了一个GPT和人之间的对话。答案的语气就好像GPT看到图像并回答问题。人通常对图像的视觉内容提出了一组不同的问题,包括对象类型、计算对象、对象动作、对象位置、对象之间的相对位置,GPT对上述的问题进行回答,数据集中只加入那些有明确答案的问题回答对。
  2. 图片细节描写:为了对图像包含丰富和全面的描述,我们创建了一个具有这样一个意图的问题列表。对于每张图像,我们从列表中随机抽取一个问题,要求GPT-4生成详细的描述。
  3. 复杂的推理。以上两种类型侧重关注视觉内容本身,在此基础上进一步创建深入的推理问题。答案通常需要遵循严格的逻辑进行一步的推理过程。
  • 借助GPT,最终形成了158K个独特的语言图像指令跟踪样本,包括对话58K,详细描述23K,复杂推理77k。

图像指令微调

模型架构

  • 模型架构有效地利用预先训练过的LLM和视觉模型的能力。网络的原始结构如图1所示。我们选择Vicuna作为我们的由ϕ参数化的LLM fϕ(·)在语言任务中具有最好的指令跟踪功能。
  • 对于输入图像Xv,我们考虑预先训练的CLIP视觉编码器ViT-L/14,它提供了视觉特征Zv = g(Xv)。我们考虑一个简单的线性层来连接图像特征到单词嵌入空间。生成Hv
    H_{v} = W \cdot Z_{v}, with Z_{v} = g(X_{v})
    LLaVA网络架构

训练

  • 对于每幅图像Xv,我们生成多轮对话数据(X1q、X1a、···、XTq、XTa),其中T是总回合数。我们将它们组织成一个序列,将所有答案作为LLM的反应,Xt在第t回合的指示为:
  • 我们使用其原始的自回归训练目标,对LLM进行指令调整。


整个模型的训练分为两个阶段。

  • 特征对齐的预训练:在训练中,我们保持视觉编码器和LLM的权值冻结,并且仅使用可训练参数θ=W(投影矩阵)来最大化(3)的可能性。这样,图像特征Hv就可以与预先训练好的LLM词嵌入进行对齐。这个阶段可以理解为为冻结的LLM训练一个兼容的视觉标记器。
  • 端到端微调:我们总是保持视觉编码器的权值冻结,并在LLaVA中继续更新投影层和LLM的预训练权值;即,可训练参数为(3)中的θ = {W,ϕ}。

实验

不同训练数据的LLaVA-Bench(COCO)消融实验
使用LLaVA-Bench上的相对分数的指导跟随能力比较
Science QA dataset

设计选择消融实验
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,287评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,346评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,277评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,132评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,147评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,106评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,019评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,862评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,301评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,521评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,682评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,405评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,996评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,651评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,803评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,674评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,563评论 2 352

推荐阅读更多精彩内容