BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
30 Jan 2023
https://arxiv.org/abs/2301.12597
https://github.com/salesforce/lavis
https://github.com/salesforce/LAVIS/tree/main/projects/blip2
(LAVIS - A Library for Language-Vision Intelligence, 1.9k stars)
由于大规模模型的端到端训练,视觉和语言预训练的成本越来越高。本文提出了BLIP-2,这是一种通用而有效的预训练策略,它从现成的冻结预训练图像编码器和冻结的大型语言模型中引导视觉语言预训练。BLIP-2通过一个轻量级的查询转换器弥补了模态之间的差距,该转换器分两个阶段进行预训练。第一阶段从冻结图像编码器引导视觉语言表示学习。第二阶段将视觉从冻结的语言模型引导到语言生成学习。BLIP-2在各种视觉语言任务上实现了最先进的性能,尽管与现有方法相比,可训练的参数明显更少。例如,我们的模型在零样本VQAv2上比Flamingo80B高8.7%,可训练参数减少了54倍。我们还展示了该模型的新功能,即可以按照自然语言指令进行零样本图像到文本生成。