High-Resolution Image Synthesis with Latent Diffusion Models2022-11-19

motivation

由于扩散模型(Diffusion Models,DM)通常直接在像素空间中操作,优化功能强大的DM通常会消耗数百个GPU天,而且由于顺序计算,扩散模型的推理也非常昂贵。为了在有限的计算资源上进行DM训练,同时保持其质量和灵活性,本文在强大的预训练自动编码器的潜在空间中使用扩散模型。与之前的工作相比,在这种表示上训练扩散模型允许在复杂性降低和细节保留之间达到一个接近最优的点,极大地提高了视觉保真度。通过在模型体系结构中引入交叉注意层(cross-attention layers),本文将扩散模型转化为强大而灵活的生成器,可以有通用的条件输入,比如文本,候选框等,并且能够以卷积等方式实现超分辨率。

我们的方法从分析在像素空间中已经训练过的扩散模型开始:图2显示了一个训练过的扩散模型的速率失真权衡( rate-distortion trade-off )。与任何基于似然的模型一样,学习可以大致分为两个阶段:第一个是感知压缩阶段,除了学习高频细节,仍能学习到很少的语义变化。在第二阶段,实际生成模型学习数据的语义和概念组成(语义压缩)。因此,我们的目标是首先找到一个感知上等价,但计算上更合适的空间,在这个空间中我们将训练用于高分辨率图像合成的扩散模型
因此我们将训练分为两个不同的阶段:首先,我们训练一个自动编码器,它提供一个低纬的感知空间。重要的是,我们不需要过度依赖空间压缩,因为我们在习得的潜在空间中训练dm,该空间相对于空间维度具有更好的缩放特性。降低的复杂度也使得从潜在空间生成图像更加有效。我们将得到的模型称为潜扩散模型(ldm) 。并且我们只需要训练一次通用自动编码阶段,可以将其重用于不同的DM训练或完全不同的任务[78]。这使得能够高效地适用于各种图像到图像和文本到图像任务



如下图可说明:横轴是隐变量每个维度压缩的bit率,纵坐标是模型的损失。模型在学习的过程中,随着压缩率变大,刚开始模型的损失下降很快,后面下降很慢,但仍然在优化。模型首先学习到的是semantic部分的压缩/转换(大框架),这一阶段是人物semantic部分转变,然后学习到的是细节部分的压缩/转换,这是perceptual细节处的转变

contribution

提出了Latent Diffusion Models(LDMs)

1、对比transformer-based的方法,该方法能够在压缩的空间(work on a compression level)对图像进行重建,生成比之前的方法更加可靠与详细的结果。并能应用于百万像素图像的高分辨率合成(high-resolution synthesis of megapixel images)。
2、在多任务上均有较好的表现,同时显著降低计算成本。并且对比像素级别的diffusion方法,节省了推断成本。
3、该方法不需要平衡重建和生成的能力,对latent space几乎不需要正则化。
4、本文设计了一种基于cross-attention的通用条件生成控制机制,能够实现多模态的训练。(class-conditional, text-to-image、layout-to-image)

Method

1. Perceptual Image Compression

我们使用了一个自动编码模型,该模型学习的空间在感知上与图像空间等效,但显著降低了计算复杂度。由一个通过结合感知损失[102]和基于patch的[32]对抗损失[20,23,99]训练的自动编码器组成。


2. Latent Diffusion Models

通过我们预训练的由E和D组成的感知压缩模型,我们现在可以访问一个高效的、低维的潜在空间,其中高频的、难以察觉的细节被抽象出来。与高维像素空间相比,该空间更适合基于可能性的生成模型,因为它们现在可以(i)专注于数据的重要语义位,(ii)在低维、计算效率更高的空间中进行训练



我们模型中的神经主干是一个以时间条件UNet。由于前向过程是固定的,所以在训练过程中预训练的编码器中得zt,从p(z)中的采样的样本只需经过一次解码器就可以解码到图像空间中

3. Conditioning Mechanisms

我们通过使用交叉注意机制(cross-attention mechanism)来增强DMs的底层UNet主干,从而使其成为更灵活的条件图像生成器[94],该机制对于学习各种输入模式的基于注意的模型非常有效[34,35]。为了预处理来自不同模态(如语言提示)的y,我们引入了一个领域特定的编码器τθ,它将y投射到一个中间表示,然后通过交叉注意层映射到UNet的中间层



交叉注意力机制的实现为


实验

1. On Perceptual Compression Tradeoffs

不同的压缩率变现不同其中LDM4-16效果比较好

2. Image Generation with Latent Diffusion


3. Conditional Latent Diffusion
Transformer Encoders for LDMs

Convolutional Sampling Beyond 256²
Super-Resolution with Latent Diffusion

Inpainting with Latent Diffusion

此博客只做为自己记录,可以参考其他优秀博客

https://zhuanlan.zhihu.com/p/573984443

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容