BLIP-2:使用冻结图像编码器和大型语言模型的引导语言图像预训练

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

30 Jan 2023

https://arxiv.org/abs/2301.12597

https://github.com/salesforce/lavis

https://github.com/salesforce/LAVIS/tree/main/projects/blip2

(LAVIS - A Library for Language-Vision Intelligence, 1.9k stars)

由于大规模模型的端到端训练,视觉和语言预训练的成本越来越高。本文提出了BLIP-2,这是一种通用而有效的预训练策略,它从现成的冻结预训练图像编码器和冻结的大型语言模型中引导视觉语言预训练。BLIP-2通过一个轻量级的查询转换器弥补了模态之间的差距,该转换器分两个阶段进行预训练。第一阶段从冻结图像编码器引导视觉语言表示学习。第二阶段将视觉从冻结的语言模型引导到语言生成学习。BLIP-2在各种视觉语言任务上实现了最先进的性能,尽管与现有方法相比,可训练的参数明显更少。例如,我们的模型在零样本VQAv2上比Flamingo80B高8.7%,可训练参数减少了54倍。我们还展示了该模型的新功能,即可以按照自然语言指令进行零样本图像到文本生成。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容