Latent Diffusion：高分辨率图像合成

本文介绍Stable-diffusion背后的关键技术

Stable-diffusion：https://stablediffusionweb.com/

这是知乎上对扩散模型的一个通俗讲解：https://zhuanlan.zhihu.com/p/563543020

High-Resolution Image Synthesis with Latent Diffusion Models

CVPR2022

原文：https://arxiv.org/abs/2112.10752

开源：

https://github.com/compvis/latent-diffusion （4k星，demo震撼）

https://github.com/compvis/stable-diffusion （29.2k星）

https://paperswithcode.com/paper/high-resolution-image-synthesis-with-latent

Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer

用于高分辨率图像合成的Latent扩散模型

摘要：通过将图像形成过程分解为去噪自动编码器的连续应用，扩散模型（DM）在图像数据及其他方面取得了最先进的合成结果。此外，它们的配方允许一种引导机制来控制图像生成过程，而无需再训练。然而，由于这些模型通常直接在像素空间中运行，因此对功能强大的DM进行优化通常需要数百GPU天，并且由于顺序评估，推理成本很高。为了在有限的计算资源上实现DM训练，同时保持其质量和灵活性，我们将其应用于强大的预处理自动编码器的潜在空间。与之前的工作相比，基于这种表示的训练扩散模型首次在复杂性降低和细节保留之间达到接近最佳的点，大大提高了视觉逼真度。通过在模型体系结构中引入交叉注意层，我们将扩散模型转化为功能强大且灵活的生成器，用于文本或边界框等一般条件输入，并以卷积方式实现高分辨率合成。我们的潜在扩散模型（LDM）在图像修复和各种任务（包括无条件图像生成、语义场景合成和超分辨率）上具有高度竞争力的性能方面达到了新的技术水平，同时与基于像素的DM相比，大大降低了计算要求。开源在：https://github.com/CompVis/latent-diffusion

By decomposing the image formation process into a sequential application of denoising autoencoders, diffusion models (DMs) achieve state-of-the-art synthesis results on image data and beyond. Additionally, their formulation allows for a guiding mechanism to control the image generation process without retraining. However, since these models typically operate directly in pixel space, optimization of powerful DMs often consumes hundreds of GPU days and inference is expensive due to sequential evaluations. To enable DM training on limited computational resources while retaining their quality and flexibility, we apply them in the latent space of powerful pretrained autoencoders. In contrast to previous work, training diffusion models on such a representation allows for the first time to reach a near-optimal point between complexity reduction and detail preservation, greatly boosting visual fidelity. By introducing cross-attention layers into the model architecture, we turn diffusion models into powerful and flexible generators for general conditioning inputs such as text or bounding boxes and high-resolution synthesis becomes possible in a convolutional manner. Our latent diffusion models (LDMs) achieve a new state of the art for image inpainting and highly competitive performance on various tasks, including unconditional image generation, semantic scene synthesis, and super-resolution, while significantly reducing computational requirements compared to pixel-based DMs.

图1：通过较少的激进下采样提高可实现质量的上限。由于扩散模型为空间数据提供了极好的归纳偏差，我们不需要对潜在空间中的相关生成模型进行大量的空间下采样，但仍然可以通过适当的自动编码模型大大降低数据的维数，见第3节。图像来自DIV2K[1]验证集，评估值为512^2像素。我们用f表示空间下采样因子。重建FID[29]和PSNR是在ImageNet-val[12]上计算的; 另见表8。Figure 1. Boosting the upper bound on achievable quality with less agressive downsampling. Since diffusion models offer excellent inductive biases for spatial data, we do not need the heavy spatial downsampling of related generative models in latent space, but can still greatly reduce the dimensionality of the data via suitable autoencoding models, see Sec. 3. Images are from the DIV2K [1] validation set, evaluated at 512^2 px. We denote the spatial downsampling factor by f. Reconstruction FIDs [29] and PSNR are calculated on ImageNet-val. [12]; see also Tab. 8

1 引言

图像合成是近年来发展最为引人注目的计算机视觉领域之一，也是计算需求最大的领域之一。特别是复杂自然场景的高分辨率合成，目前主要由基于扩大基于似然的模型，可能包含自回归（AR）变换器中的数十亿个参数[66,67](scaling up likelihood-based models, potentially containing billions of parameters in autoregressive (AR) transformers)。相比之下，GANs[3、27、40]的有希望的结果大多局限于变化相对有限的数据(data with comparably limited variability)，因为它们的对抗学习过程不容易扩展到建模复杂的多模态分布。最近，基于去噪自动编码器层次结构构建的扩散模型[82]已证明在图像合成[30,85]和[7,45,48,57]之外取得了令人印象深刻的结果，并定义了一流的条件图像合成[15,31]和超分辨率[72]。此外，与其他类型的生成模型[19,46,69]相比，即使是无条件DMs也可以很容易地应用于修复和着色[85]或基于笔划的合成[53]等任务。作为基于似然的模型，它们不像GAN那样表现出模式崩溃和训练不稳定性，并且通过大量利用参数共享，它们可以对自然图像的高度复杂分布建模，而不像AR模型那样涉及数十亿个参数[67]。

人人可用的高分辨率图像合成 扩散模型属于基于似然的模型类，其模式覆盖行为(mode-covering behavior)使得它们很容易花费过多的容量（从而计算资源）来建模无法察觉的数据细节[16,73]。尽管重加权变分目标[30]旨在通过对初始去噪步骤进行欠采样来解决这一问题，但扩散模型仍然需要很多的计算，因为训练和评估这样的模型需要在RGB图像的高维空间中进行重复的函数评估（和梯度计算）。例如，训练最强大的DM通常需要数百GPU天（例如，[15]中的150-1000 V100天），对输入空间的噪声版本进行重复评估也会导致推理成本高昂，因此在单个A100 GPU上生成50k样本大约需要5天[15]。这对研究社区和一般用户来说有两个后果：首先，训练这样的模型需要大量的计算资源，只有领域内的一小部分人可用，并留下巨大的碳足迹[65,86]。其次，评估一个已经训练过的模型在时间和内存上也很昂贵，因为相同的模型体系结构必须连续运行大量步骤（如[15]中的25-1000个步骤）。为了增加这个强大模型类的可访问性，同时减少其显著的资源消耗，需要一种方法来降低训练和采样的计算复杂性。因此，在不影响DM性能的情况下减少其计算需求是提高其可访问性的关键。

前往潜在空间(Departure to Latent Space) 我们的方法首先分析像素空间中已训练的扩散模型：图2显示了训练模型的率失真权衡( rate-distortion trade-off)。与任何基于似然的模型一样，学习可以大致分为两个阶段：第一阶段是感知压缩阶段，去除高频细节，但仍然学习很少的语义变化(but still learns little semantic variation)。在第二阶段，实际生成模型学习数据的语义和概念组成（语义压缩）(semantic and conceptual composition of the data)。因此，我们的目标是首先找到一个在感知(perceptually)上等效但在计算上更合适的空间，在这个计算上更合适的空间里，我们训练用于高分辨率图像合成的扩散模型。

图2.感知和语义压缩:数字图像的大部分比特对应于难以察觉的细节。尽管DM允许通过最小化responsible损失项来抑制这种语义上无意义的信息，但仍需要在所有像素上评估梯度（在训练期间）和神经网络主干（训练和推理），这导致了多余的计算和不必要的昂贵优化和推理。我们提出潜在扩散模型（LDM）作为一种有效的生成模型和一个单独的轻度压缩阶段，仅消除不可察觉的细节。数据和图像来自[30]。Figure 2. Illustrating perceptual and semantic compression: Most bits of a digital image correspond to imperceptible details. While DMs allow to suppress this semantically meaningless information by minimizing the responsible loss term, gradients (during training) and the neural network backbone (training and inference) still need to be evaluated on all pixels, leading to superfluous computations and unnecessarily expensive optimization and inference.We propose latent diffusion models (LDMs) as an effective generative model and a separate mild compression stage that only eliminates imperceptible details. Data and images from [30].

按照常见实践[11、23、66、67、96]，我们将训练分为两个不同的阶段：首先，我们训练一个自动编码器，它提供一个低维（因而高效）的表示空间，在感知上与数据空间等价(perceptually equivalent to the data space)。重要的是，与之前的工作[23,66]相比，我们不需要依赖过多的空间压缩，因为我们在学习的潜在空间中训练DM，它在空间维度方面表现出更好的缩放特性( scaling properties)。复杂度的降低还提供了通过单个网络通道pass从潜在空间高效生成图像的方法(The reduced complexity also provides efficient image generation from the latent space with a single network pass)。我们将所得模型类称为潜在扩散模型（Latent Diffusion Models，LDM）。

这种方法的一个显著优点是，我们只需要对通用自动编码阶段进行一次训练，因此可以将其用于多个DM训练或探索可能完全不同的任务[81]。这使得能够有效地探索各种图像到图像和文本到图像任务的大量扩散模型。对于后者，我们设计了一种架构，将Transformer连接到DM的UNet主干网[71]，并支持任意类型的基于令牌的调节机制(token-based conditioning mechanisms)，见第3.3节。

总之，我们的工作做出了以下贡献：

（i）与纯基于Transformer的方法相比[23，66]，我们的方法对高维数据的缩放更为优雅，因此可以（a）在压缩级别上工作，比以前的工作（见图1）提供更可靠和详细的重建，并且（b）可以有效地应用于百万像素图像的高分辨率合成。

（ii）我们在多个任务（无条件图像合成、修复、随机超分辨率stochastic super-resolution）和数据集上实现了具有竞争力的性能，同时显著降低了计算成本。与基于像素的扩散方法相比，我们还显著降低了推理成本。

（iii）我们表明，与之前同时学习编码器/解码器架构和基于分数的先验知识的工作[93]相比，我们的方法不需要对重建和生成能力进行微妙的加权。这确保了极其可靠的重建，并且几乎不需要对潜在空间进行正则化。(We show that, in contrast to previous work [93] which learns both an encoder/decoder architecture and a score-based prior simultaneously, our approach does not require a delicate weighting of reconstruction and generative abilities. This ensures extremely faithful reconstructions and requires very little regularization of the latent space.)

（iv）我们发现，对于条件密集的任务(densely conditioned tasks)，如超分辨率、修复和语义合成，我们的模型可以以卷积方式应用，并呈现大的一致的∼ 1024^2像素的图像。

（v）此外，我们还设计了一种基于交叉注意的通用的条件机制(a general-purpose conditioning mechanism based on cross-attention)，支持多模态训练。我们使用它来训练类别条件、文本到图像和布局到图像模型(class-conditional, text-to-image and layout-to-image models)。

（vi）最后，我们在https://github.com/CompVis/latent-diffusion上发布了预处理的潜在扩散和自动编码模型，该模型除了训练DM外，还可用于各种任务[81]。

2 相关工作

图像合成的生成模型 图像的高维性对生成性建模提出了明显的挑战。生成对抗网络（GAN）[27]允许对高分辨率图像进行具有良好感知质量的高效采样[3，42]，但很难优化[2，28，54]，难以捕获完整的数据分布[55]。相比之下，基于似然的方法强调良好的密度估计，从而使优化更加有效。变分自动编码器（Variational autoencoders，VAE）[46]和基于流的模型[18，19]能够高效合成高分辨率图像[9，44，92]，但样本质量与GAN不一样。虽然自回归模型（autoregressive models，ARM）[6、10、94、95]在密度估计方面取得了很好的性能，但计算量大的体系结构[97]和顺序采样过程将其限制在低分辨率图像上。由于基于像素的图像表示包含几乎无法感知的高频细节[16,73]，最大似然训练在建模它们上花费的容量不成比例，导致训练时间过长。为了提高分辨率，几种两阶段方法[23,67,101,103]使用ARM来建模压缩的潜在图像空间，而不是原始像素。

最近，扩散概率模型（DM）[82]在密度估计[45]和样本质量[15]方面取得了最先进的结果。这些模型的生成能力来源于，当其底层神经主干实现为UNet[15,30,71,85]时，对类似图像数据(image-like data)的归纳偏置的自然拟合。当将加权目标[30]用于训练时，通常可以获得最佳的综合质量。在这种情况下，DM对应于有损压缩程序，并允许以图像质量换取压缩能力(In this case, the DM corresponds to a lossy compressor and allow to trade image quality for compression capabilities)。然而，在像素空间中评估和优化这些模型存在推理速度慢和训练成本高的缺点。虽然前者可以通过高级采样策略[47、75、84]和分层方法[31、93]部分解决，但高分辨率图像数据的训练总是需要计算昂贵的梯度。我们用我们提出的LDM解决了这两个缺点，LDM工作于低维的压缩的潜在空间。这使得训练的计算成本更低，并且加快了推理速度，而合成质量几乎没有降低（见图1）。

两阶段图像合成 为了缓解单个生成方法的缺点，许多研究[11、23、67、70、101、103]都致力于通过两阶段方法将不同方法的优势结合到更高效、更具表现力的模型中。VQ-VAEs[67，101]使用自回归模型在离散化潜在空间上学习具有表达能力的先验(expressive prior)。

[66]通过学习离散化图像和文本表示的联合分布，将这种方法扩展到文本到图像生成。更一般地说，[70]使用条件可逆网络在不同领域的潜在空间之间提供通用迁移。与VQ-VAE不同，VQGANs[23，103]采用第一阶段，以对抗和感知目标将自回归Transformer缩放到更大的图像。然而，可行的ARM训练所要求的高压缩率引入了数十亿训练参数[23，66]，限制了此类方法的整体性能，而较少的压缩是以高计算成本为代价的[23，66]。我们的工作防止了这种权衡，因为我们提出的LDM由于其卷积主干，可以更温和地(gently)扩展到更高维的潜在空间。因此，我们可以自由选择压缩级别，其在学习一个强大的第一阶段之间进行最佳调节，而不会将太多的感知压缩留给生成扩散模型，同时保证高保真重建（见图1）。(Thus, we are free to choose the level of compression which optimally mediates between learning a powerful first stage, without leaving too much perceptual compression up to the generative diffusion model while guaranteeing highfidelity reconstructions)

虽然联合[93]或单独[80]学习编码/解码模型以及基于分数的先验知识的方法已经存在，但前者仍然需要在重建和生成能力[11]之间进行困难的权衡，并且我们的方法更优（第4节），后者侧重于高度结构化的图像，如人脸。

3 方法

为了降低用于高分辨率图像合成的训练扩散模型的计算要求，我们观察到，尽管扩散模型允许通过欠采样相应的损失项来忽略感知无关的细节[30]，但它们仍然需要在像素空间进行昂贵的函数评估，这会导致对计算时间和能量资源的巨大需求。

我们建议通过显示地分离压缩和生成学习阶段来规避这一缺陷(by introducing an explicit separation of the compressive from the generative learning phase)（见图2）。为了实现这一点，我们使用了一个自动编码模型，它学习一个与图像空间在感知上等价(perceptually equivalent)的空间，但计算复杂度显著降低。

这种方法有几个优点：（i）通过离开高维图像空间，我们获得了计算效率更高的DM，因为采样是在低维空间进行的。（ii）我们利用了DM的归纳偏置，这种归来偏置来自其UNet架构[71]，这使得它们对具有空间结构的数据特别有效，因此，可以减少对以前方法所要求的激进的、降低质量的压缩级别的需求[23，66]。（iii）最后，我们获得了通用压缩模型，其潜在空间可用于训练多个生成模型，也可用于其他下游应用，如单图像CLIP引导合成[25]。

3.1 感知图像压缩Perceptual Image Compression

我们的感知压缩模型基于先前的工作[23]，其包含一个自动编码器，自动编码器通过感知损失[106]和基于patch的[33]对抗目标[20，23，103]的组合来训练。这可以通过增强局部逼真感来确保重建仅限于图像流形，并避免仅依赖像素空间损失（如L2或L1目标）而引入模糊。( Our perceptual compression model is based on previous work [23] and consists of an autoencoder trained by combination of a perceptual loss [106] and a patch-based [33] adversarial objective [20, 23, 103]. This ensures that the reconstructions are confined to the image manifold by enforcing local realism and avoids bluriness introduced by relying solely on pixel-space losses such as L2 or L1 objectives)

更准确地说，给定一个RGB空间的图像 $x \in \mathbb{R}^{H\times W\times 3}$ ，编码器 $\mathcal{E}$ 将 $x$ 编码为潜在表示 $z=\mathcal{E}(x)$ ，解码器 $\mathcal{D}$ 从潜在表示中重建图像， $\tilde{x} =\mathcal{D}(z)=\mathcal{D}(\mathcal{E}(x))$ ，其中 $z \in \mathbb{R}^{h\times w\times c}$ 。重要的是，编码器用下采样因子 $f = H/h = W/w$ 对图像下采样，我们研究了不同的下采样因子 $f = 2^m$ ， $m \in \mathbb{N}$ 。

为了避免任意高方差的潜在空间，我们用两种不同的正则化方法进行了实验。第一种变体，KL reg.，对所学latent的标准正态（编者注：或标准范数？standard normal）施加轻微的KL惩罚，类似于VAE[46，69]，而VQ-reg. 在解码器内使用向量量化层(vector quantization layer)[96]。该模型可以解释为VQGAN[23]，但量化层被解码器吸收(absorbed)。因为我们后续的DM设计为处理我们学习的潜在空间 $z=\mathcal{E}(x)$ 的二维结构，所以我们可以使用相对温和的压缩率，并实现非常好的重建。这与之前的工作[23，66]不同，之前的工作依赖于习得空间 $z$ 的任意1D排序来对其分布进行自回归建模，从而忽略了 $z$ 的许多固有结构。因此，我们的压缩模型更好地保留了 $x$ 的细节（见表8）。完整的目标和训练细节可以在补充资料中找到。

3.2 潜在扩散模型

扩散模型[82]是一种概率模型，通过逐渐对正态分布变量去噪来学习数据分布 $p(x)$ ，这对应于学习长度为 $T$ 的固定马尔可夫链的逆过程。对于图像合成，最成功的模型[15,30,72]依赖于在 $p(x)$ 上的变分下界的重加权变分，这mirrors了去噪分数匹配[85]。这些模型可以解释为去噪自编码器 $\epsilon _{\theta } (x_{t},t)$ ， $t=1\dots T$ ，它们被训练来预测输入 $x_t$ 的去噪变量，其中 $x_t$ 是输入 $x$ 的噪声版本。相应的目标可以简化为（补充材料中的Sec. B）

$L_{DM} = \mathbb{E}_{x,\epsilon \sim \mathcal{N}(0, 1), t }[{||\epsilon - \epsilon _{\theta }(x_{t},t) ||}_{2}^2 ]$ ，（1）

其中 $t$ 均匀采样自 $\left\{ {1, \dots, T} \right\}$ 。

(Diffusion Models are probabilistic models designed to learn a data distribution p(x) by gradually denoising a normally distributed variable, which corresponds to learning the reverse process of a fixed Markov Chain of length T. For image synthesis, the most successful models rely on a reweighted variant of the variational lower bound on p(x), which mirrors denoising score-matching. These models can be interpreted as an equally weighted sequence of denoising autoencoders \epsilon _{\theta } (x_{t},t), t=1\dots T, which are trained to predict a denoised variant of their input x_t, where x_t is a noisy version of the input x. The corresponding objective can be simplified to suppsec:dmdetails)

潜在表示的生成建模 有了由 $\mathcal{E}$ 和 $\mathcal{D}$ 组成的经过训练的感知压缩模型，我们现在可以进入一个高效、低维的潜在空间，在这个空间中，高频、不可察觉的细节被抽离出来。与高维像素空间相比，该空间更适合基于似然的生成模型，因为它们现在可以（i）专注于数据的重要语义位(important, semantic bit)，（ii）在低维、计算效率更高的空间中训练。

与之前依赖于高度压缩、离散潜在空间中的自回归、基于注意力的Transformer模型[23,66103]的工作不同，我们可以利用我们模型提供的图像特定的归纳偏置。这包括主要从2D卷积层构建底层UNet的能力，并使用重加权界将目标进一步聚焦于感知最相关的位，现在读作

$L_{LDM} := \mathbb{E}_{{\mathcal{E}(x)},\epsilon \sim \mathcal{N}(0, 1), t }[{||\epsilon - \epsilon _{\theta }(z_{t},t) ||}_{2}^2 ]$ （2）

(the ability to build the underlying UNet primarily from 2D convolutional layers,and further focusing the objective on the perceptually most relevant bits using the reweighted bound, which now reads)

我们模型的神经主干 $\epsilon _{\theta }(\circ ,t)$ 被实现为时间条件UNet[71](time-conditional UNet)。由于前向过程是固定的，因此在训练过程中可以从 $\mathcal{E}$ 中高效地获得 $z_t$ ，并且从 $p(z)$ 中的样本可以 $\mathcal{D}$ with a single pass解码到图像空间。

3.3 条件机制

与其他类型的生成模型类似[56，83]，扩散模型原则上能够建模形式为 $p(z|y)$ 的条件分布。这可以通过条件去噪自动编码器 $\epsilon _{\theta }(z_t ,t,y)$ 来实现，并通过输入 $y$ （例如文本[68]、语义图[33，61]或其他图像到图像转换任务[34]）为控制合成过程铺平了道路。

然而，在图像合成的背景下，将DMs的生成能力与类标签以外的其他类型的条件[15]或输入图像的模糊变体[72]相结合是目前尚未探索的研究领域。

我们通过交叉注意机制[97]增强其底层UNet主干，将DM转化为更灵活的条件图像生成器，这对于学习各种输入模式的基于注意的模型是有效的[35,36]。为了预处理来自各种模式（如语言提示）的 $y$ ，我们引入了一个特定于域的编码器 $τ_θ$ ，该编码器将 $y$ 投影到中间表示 $τ_θ(y) \in \mathbb{R}^{M\times {d_r}}$ ，然后通过交叉注意力层将其映射到UNet的中间层，交叉注意力层实现为 $\text{Attention}(Q,K,V)=\text{softmax}(\frac{QK^T}{\sqrt{d} } )\cdot V$ ，其中： $Q = W^{(i)}_Q \cdot \varphi_i(z_t)$ ， $K = W^{(i)}_K \cdot τ_θ(y)$ ， $V = W^{(i)}_V \cdot τ_θ(y)$ 。

这里， $\varphi_i(z_t) \in \mathbb{R}^{N\times {d_{e}^i }}$ 表示UNet的（展平的）中间表示，实现 $\epsilon _{\theta }$ 和 $W^{(i)}_V \in \mathbb{R}^{d \times d^i_\epsilon}$ 、 $W^{(i)}_Q \in \mathbb{R}^{d \times d_\tau}$ 、 $W^{(i)}_K \in \mathbb{R}^{d \times d_\tau}$ 是可学习的投影矩阵[36，97]。有关可视化展示，请参见图3。

图3.我们通过拼接或更general的交叉注意机制来调节LDM。见第3.3节。Figure 3. We condition LDMs either via concatenation or by a more general cross-attention mechanism. See Sec. 3.3

基于图像-条件对(image-conditioning pairs)，通过以下方式学习条件LDM：

$L_{LDM} := \mathbb{E}_{{\mathcal{E}(x)},y,\epsilon \sim \mathcal{N}(0, 1), t }[{||\epsilon - \epsilon _{\theta }(z_{t},t,τ_θ(y) ) ||}_{2}^2 ]$ （3）

其中， $τ_θ$ 和 $\epsilon _{\theta }$ 都通过公式3进行联合优化。这种条件机制很灵活，因为可以用特定于领域的专家来参数化 $τ_θ$ ，例如，当 $y$ 为文本提示时，这个专家就是（无掩码的）transformers[97]。（见第4.3.1节）

4 实验

LDM为各种图像模态的灵活且可计算处理的基于扩散的图像合成提供了手段，我们在下面的实验中展示了这一点。然而，首先，我们分析了与基于像素的扩散模型相比，我们的模型在训练和推理方面的收益。有趣的是，我们发现在VQ正则化的潜在空间中训练的LDM有时可以获得更好的样本质量，即使VQ正则的第一阶段模型的重建能力稍微落后于它们对应的连续模型，参见表8。附录D.1对第一阶段正则化方案对LDM训练的影响及其对分辨率>256^2的泛化能力进行了直观比较。在E.2中，我们列出了本节中所有结果的架构、实施、训练和评估的详细信息。

4.1 感知压缩权衡

本节分析了具有不同下采样因子 $f\in\{1,2,4,8,16,32\}$ 的LDM的行为（缩写为LDM-f，其中LDM-1对应于基于像素的DM）。为了获得一个可比较的测试场，我们将本节中所有实验的计算资源固定到单个NVIDIA A100，并用相同的步骤数和参数量训练所有模型。

表8显示了本节中用于LDM的第一阶段模型的超参数和重建性能。图6显示了ImageNet[12]数据集上2M个步骤的类别条件模型(class-conditional models)的样本质量与训练进度的函数关系。我们看到，i）LDM-{1,2}的小的下采样因子会导致训练进度缓慢，而ii） $f$ 值过大会导致，在相对较少的训练步骤后，保真度停滞不前。重新审视上述分析（图1和图2），我们将其归因于i）将大部分感知压缩留给扩散模型，ii）第一阶段压缩太强，导致信息丢失，从而限制了可实现的质量。LDM-{4-16}在效率和感知结果之间取得了很好的平衡，这体现在2M训练步骤后，基于像素的扩散（LDM-1）和LDM-8之间的FID[29]的显著差距为38。

表8.在OpenImages上训练的完整自动编码器zoo，在ImageNet-Val上评估。†表示无需注意的自动编码器。Table 8. Complete autoencoder zoo trained on OpenImages, evaluated on ImageNet-Val. † denotes an attention-free autoencoder.

图6.分析ImageNet数据集上超过2M个训练步骤的具有不同下采样因子的类别条件LDM的训练。与具有更大下采样因子（LDM-{4-16}）的模型相比，基于像素的LDM-1需要更长的训练时间。LDM-32中过多的感知压缩限制了总体样本质量。所有模型都在一个NVIDIA A100上训练，计算预算相同。使用100个DDIM步骤[84]和

κ

=0获得的结果。 Figure 6. Analyzing the training of class-conditional LDMs with different downsampling factors f over 2M train steps on the ImageNet dataset. Pixel-based LDM-1 requires substantially larger train times compared to models with larger downsampling factors (LDM-{4-16}). Too much perceptual compression as in LDM-32 limits the overall sample quality. All models are trained on a single NVIDIA A100 with the same computational budget. Results obtained with 100 DDIM steps [84] and κ = 0

在图7中，我们将CelebAHQ[39]和ImageNet上训练的模型与DDIM采样器[84]就不同数量的去噪步骤的采样速度进行了比较，并将其与FID得分[29]进行了对比。LDM-{4-8}的性能优于感知和概念压缩比例不合适的模型。特别是与基于像素的LDM-1相比，它们的FID分数低得多，同时显著提高了样本吞吐量。像ImageNet这样的复杂数据集需要降低压缩率，以避免降低质量。总之，LDM-4和-8为获得高质量的合成结果提供了最佳条件。

图7.比较CelebA HQ（左）和ImageNet（右）数据集上不同压缩的LDM。不同的标记指示使用DDIM的{10，20，50，100，200}采样步骤，沿着每条线从右到左。虚线显示了200个步骤的FID分数，表明LDM-{4-8}的强大性能。对5000份样本进行FID评分。所有模型都在A100上训练了500k（CelebA）/2M（ImageNet）步数。Figure 7. Comparing LDMs with varying compression on the CelebA-HQ (left) and ImageNet (right) datasets. Different markers indicate {10, 20, 50, 100, 200} sampling steps using DDIM, from right to left along each line. The dashed line shows the FID scores for 200 steps, indicating the strong performance of LDM-{4-8}. FID scores assessed on 5000 samples. All models were trained for 500k (CelebA) / 2M (ImageNet) steps on an A100.

4.2 潜在扩散的图像生成

我们在CelebA HQ[39]、FFHQ[41]、LSUN Churches and-Bodrooms[102]上对256^2像素的图像的无条件模型进行训练，并使用i）采样质量；ii）对数据流形的coverage，使用ii）FID [29]以及ii）Precision-and-Recall [50]。

表1总结了我们的结果。在CelebA-HQ上，我们报告了一个新的最先进的FID，为5.11，优于以前的基于似然的模型以及GAN。我们还优于LSGM[93]，其中潜在扩散模型与第一阶段联合训练。相比之下，我们在一个固定空间中训练扩散模型，避免了将重建质量与在潜在空间学习先验进行权衡的困难，见图1-2。(avoid the difficulty of weighing reconstruction quality against learning the prior over the latent space)

除LSUN Bedrooms数据集外，我们的得分接近ADM[15]，尽管使用了一半的参数，需要的训练资源减少了4倍（见附录E.3.5）。此外，LDM在精度和召回方面一致地优于基于GAN的方法，从而证实了其模式覆盖基于似然的训练目标(mode-covering likelihood-based training objective)相对于对抗方法的优势。在图4中，我们还显示了每个数据集的定性结果。

图4.在CelebAHQ[39]、FFHQ[41]、LSUN教堂[102]、LSUN卧室[102]和类别条件ImageNet[12]上训练的LDM的样本，每个样本的分辨率为256×256。放大时最佳查看。有关更多示例，请参阅附录。Figure 4. Samples from LDMs trained on CelebAHQ [39], FFHQ [41], LSUN-Churches [102], LSUN-Bedrooms [102] and class-conditional ImageNet [12], each with a resolution of 256 × 256. Best viewed when zoomed in. For more samples cf . the supplement.

4.3 条件潜在扩散

4.3.1 LDM的Transformer编码器

通过在LDM中引入基于交叉注意的条件控制，我们为之前扩散模型中未探索的各种条件控制模式打开了大门。对于文本到图像建模，我们在LAION-400M[78]上训练了一个1.45B参数KL正则的LDM，条件是语言提示。我们使用BERT-tokenizer[14]，并将 $τ_θ$ 实现为Transformer[97]，来推断一个潜在c码(code)，这个码通过（多头）交叉注意力被映射到UNet（第3.3节）。将学习语言表示的特定于领域的专家与视觉合成结合起来产生了一个强大的模型，它很好地推广到复杂的、用户未定义的文本提示，请查阅图8和5。

对于定量分析，我们遵循先前的工作，并在MS-COCO[51]验证集上评估文本到图像的生成，其中，我们的模型改进了强大的AR[17，66]和基于GAN的[109]方法，见表2。我们注意到，应用无分类器的扩散引导[32]大大提高了样本质量，因此引导的LDM-KL-8-G与最近最先进的AR[26]和用于文本到图像合成的扩散模型[59]不相上下，同时大大减少了参数数量。为了进一步分析基于交叉注意的条件作用机制的灵活性，我们还训练模型根据OpenImages[49]上的语义布局(semantic layouts)合成图像，并在COCO[4]进行微调，见图8。定量评估和实现细节见第D.3节。

Text-to-Image Synthesis on LAION. 1.45B Model

图5.用户定义文本提示的样例，来自我们的文本到图像合成的模型，LDM-8 (KL)，该模型在LAION[78]数据库上训练。使用200 DDIM步骤生成的样本，η=1.0。我们使用s=10.0的无条件指导[32]。Figure 5. Samples for user-defined text prompts from our model for text-to-image synthesis, LDM-8 (KL), which was trained on the LAION [78] database. Samples generated with 200 DDIM steps and η = 1.0. We use unconditional guidance [32] with s = 10.0.

图8.在COCO[4]上使用LDM进行布局到图像的合成，见4.3.1节。定量评估参见附录D.3。

最后，跟随先前的工作[3，15，21，23]，我们评估我们表现最佳的类别条件ImageNet模型，使用 $f\in\{4,8\}$ ，来自4.1节，在表3、图4和D.4节。这里，我们的性能优于最先进的扩散模型ADM[15]，同时显著减少了计算要求和参数数量，参见表18。

表3.类别条件ImageNet LDM与ImageNet[12]上最先进的类别条件图像生成方法的比较。与其他基线的更详细比较见D.4，表10和F。c.F.g.表示具有[32]中提出的尺度s的无分类器的引导。Table 3. Comparison of a class-conditional ImageNet LDM with recent state-of-the-art methods for class-conditional image generation on ImageNet [12]. A more detailed comparison with additional baselines can be found in D.4, Tab. 10 and F. c.f.g. denotes classifier-free guidance with a scale s as proposed in [32].

4.3.2 超过 $256^2$ 的卷积采样

通过将空间对齐的条件信息拼接到 $\epsilon _{\theta }$ 的输入，LDM可以作为高效的通用的图像到图像转换模型。我们用它来训练语义合成、超分辨率（第4.4节）和修复（第4.5节）的模型。对于语义合成，我们使用景观图像与语义图[23，61]配对(we use images of landscapes paired with semantic maps)，并将语义图的下采样版本与 $f=4$ 模型的潜在图像表示连接起来（VQ reg.，见表8）。我们训练的输入分辨率为256^2（从384^2中裁剪），但发现我们的模型适用于更大的分辨率，当以卷积方式评估时，可以生成高达百万像素范围的图像（见图9）。我们利用这种行为还应用了第4.4节中的超分辨率模型和第4.5节中的修复模型，以生成512^2到1024^2之间的大图像。对于这种应用，信噪比（由潜在空间的规模scale引起的）会显著影响结果。在第D.1节中，我们在学习以下LDM时对此进行了说明：（i）由f=4模型（KL reg.，见表8）提供的潜在空间，以及（ii）按组件标准偏差缩放的重缩放版本(a rescaled version, scaled by the component-wise standard deviation)。

后者，结合无分类器引导[32]，还可以为文本条件LDM-KL-8-G直接合成>256^2个图像，如图13所示。(The latter, in combination with classifier-free guidance [32], also enables the direct synthesis of > 256^2 images for the text-conditional LDM-KL-8-G as in Fig. 13)

4.4 潜在扩散的超分辨率

LDM可以通过拼接直接调节低分辨率图像，从而有效地进行超分辨率训练（参见第3.3节）。在第一个实验中，我们遵循SR3[72]，并将图像退化修复为具有4×下采样的双三次插值，并在ImageNet上按照SR3的数据处理管道进行训练。我们使用OpenImages上预处理的f=4自动编码模型（VQ reg.，cf表8），并将低分辨率条件 $y$ 与UNet的输入（ $τ_θ$ ，即 identity）拼接起来。我们的定性和定量结果（见图10和表5）显示了有竞争力的性能，LDM-SR在FID中优于SR3，而SR3的IS更好。简单的图像回归模型可以获得最高的PSNR和SSIM分数；然而，这些指标与人类的感知并不一致[106]，而且相对于不完全一致的高频细节，它们更倾向于模糊性[72]。此外，我们还进行了一项用户研究，将像素基线与LDM-SR进行了比较。我们遵循SR3[72]，在两幅高分辨率图像之间，向人类受试者展示低分辨率图像，并询问他们的偏好。表4的结果证实了LDM-SR的良好性能。PSNR和SSIM可以通过使用post-hoc引导机制来推动[15]，我们通过感知损失来实现这种基于图像的引导，参见第D.6节。

LDMs can be efficiently trained for super-resolution by diretly conditioning on low-resolution images via concatenation (cf . Sec. 3.3). In a first experiment, we follow SR3[72] and fix the image degradation to a bicubic interpolation with 4×-downsampling and train on ImageNet following SR3’s data processing pipeline. We use the f = 4 autoencoding model pretrained on OpenImages (VQ-reg., cf .Tab. 8) and concatenate the low-resolution conditioning y and the inputs to the UNet, i.e. τθ is the identity.

由于双三次退化过程不能很好地推广到不遵循此预处理的图像，我们还通过使用更多样的退化来训练通用模型LDM-BSR。结果见第D.6.1节。

4.5 潜在扩散的修复

Inpainting的任务是用新内容填充图像的屏蔽区域，因为图像的某些部分已损坏，或者替换图像中现有但不需要的内容。我们评估了我们用于条件图像生成的一般方法与用于此任务的更专业、最先进(state-of-the-art)的方法相比的效果。我们的评估遵循LaMa[88]的协议，LaMa是一种近期的修复模型，它引入了一种依赖于快速傅里叶卷积的特殊体系结构[8]。第E.2.2节描述了Places[108]的确切训练和评估协议。

我们首先分析第一阶段不同设计选择的影响。特别是，我们比较了LDM-1（即基于像素的条件DM）和LDM-4在KL和VQ正则化的修复效率，也比较了第一阶段没有任何注意力的VQLDM-4（见表8），后者减少了高分辨率解码的GPU内存。为了便于比较，我们确定了所有模型的参数数量。表6报告了分辨率为256^2和512^2时的训练和采样吞吐量、总训练时间（小时/epoch）以及六个epoch后验证集的FID得分。总的来说，我们观察到基于像素和基于latent的扩散模型之间的加速至少为2.7倍，同时FID得分至少提高1.6倍。

与表7中其他修复方法的比较表明，我们的带注意力的模型提高了FID测量的整体图像质量，超过了[88]。无拼接图像和我们的样本之间的LPIPS略高于[88]。我们将其归因于，与LDM产生不同结果相比，[88]只产生了一个结果，该结果倾向于恢复更多的平均图像(recover more of an average image)，请查阅图21。此外，在用户研究（表4）中，人类受试者更喜欢我们的结果，而不是[88]的结果。

编者注：recover more of an average image，从图21看应该是指[88]产生了更多的模糊结果

图21.图像修复的定性结果。与[88]相反，我们的生成方法能够为给定输入生成多个不同的样本。

基于这些初始结果，我们也在VQ正则化第一阶段的潜在空间中训练了一个更大的扩散模型（表7中的big）。继[15]之后，该扩散模型的UNet在其特征层次的三个级别上使用了注意层，BigGAN[3]残差块用于上采样和下采样，并且具有387M个参数，而不是215M个参数。训练后，我们注意到在256^2和512^2分辨率下产生的样本质量存在差异，我们假设这是由额外的注意模块引起的。然而，在512^2分辨率微调半个epoch，使模型能够适应新的特征统计数据，并为图像修复设置了最新的FID（表7，图11中的big，w/o attn，w/ft）。

图11：使用我们的big, w/ ft修复模型去除物体的定性结果。更多结果见图22

5 限制和社会影响

限制虽然与基于像素的方法相比，LDM大大降低了计算要求，但其顺序采样过程仍然比GAN慢。此外，当需要高精度时，LDM的使用可能会有问题：尽管在我们的f=4自动编码模型中图像质量损失很小（见图1），但它们的重建能力可能成为需要像素空间中细粒度精度的任务的瓶颈。我们假设我们的超分辨率模型（第4.4节）在这方面已经有一些限制。

While LDMs significantly reduce computational requirements compared to pixel-based approaches, their sequential sampling process is still slower than that of GANs.Moreover, the use of LDMs can be questionable when high precision is required: although the loss of image quality is very small in our f=4 autoencoding models, their reconstruction capability can become a bottleneck for tasks that require fine-grained accuracy in pixel space.We assume that our superresolution models are already somewhat limited in this respect.

社会影响 媒体类图像的生成模型是一把双刃剑：一方面，它们可以实现各种创造性应用，尤其是像我们这样降低训练和推理成本的方法，有潜力促进对这项技术的使用，并使其探索普及化。另一方面，这也意味着更容易创建和传播被操纵的数据或传播错误信息和垃圾邮件。特别是，在这种情况下，故意操纵图像（“深度伪造”）是一个常见问题，尤其是女性受到影响的比例过高[13，24]。

生成模型还可以揭示(reveal)其训练数据[5，90]，当数据包含敏感或个人信息且未经明确同意而收集时，这一点非常令人担忧。然而，这一点在多大程度上也适用于图像的DMs尚不完全清楚。

最后，深度学习模块倾向于再现或加剧数据中已经存在的偏见[22，38，91]。虽然扩散模型比基于GAN的方法能够更好地覆盖数据分布，但我们的两阶段方法（结合对抗训练和基于似然的目标）在多大程度上歪曲了数据，这仍是一个重要的研究问题。关于深层生成模型的伦理考虑的更广泛、更详细的讨论，请参见例如[13]。

6 结论

我们提出了潜在扩散模型，这是一种简单有效的方法，可以显著提高去噪扩散模型的训练和采样效率，而不会降低其质量。基于这一机制和我们的交叉注意调节机制(cross-attention conditioning mechanism)，我们的实验表明，在各种条件图像合成任务中，与最先进的方法相比显示出良好的结果，即使没有特定于任务的架构。

附录

A 更改日志

这里我们列出了此版本(https://arxiv.org/abs/2112.10752v2)论文和上一版本(https://arxiv.org/abs/2112.10752v1)之间的更改

• 我们在第4.3节中更新了文本到图像合成的结果，这些结果是通过训练一个新的、更大的模型（1.45B参数）获得的。这还包括与最近在arXiv上发表的关于这项任务的竞争方法的新比较，这些方法与我们的工作发表的同时（[59,109]）或之后（[26]）发表在arXiv上。

• 我们更新了第4.1节表3（另见第D.4节）中ImageNet上的类别条件合成结果，该结果是通过用更大的批量重新训练模型获得的。图26和图27中相应的定性结果也进行了更新。更新的文本到图像和类条件模型现在都使用无分类器指导[32]作为提高视觉逼真度的措施。

• 我们进行了一项用户研究（遵循Saharia等人[72]提出的方案），为我们的修复（第4.5节）和超分辨率模型（第4.4节）提供了额外的评估。

• 将图5添加到主文件中，将图18移动到附录中，并将图13添加到附录中。

B 去噪扩散模型的详细信息

扩散模型可以根据信噪比 $\text{SNR}(t)=\frac{\alpha_t^2}{\sigma_t^2}$ 来指定，这个信噪比由序列 $(\alpha_t)_{t=1}^T$ 和 $(\sigma_t)_{t=1}^T$ 组成，从数据样本 $x_0$ 开始，将前向扩散过程 $q$ 定义为：

$q(x_t \vert x_0) =\mathcal{N}(x_t \vert \alpha_t x_0, \sigma_t^2 \mathbb{I})$ （4）

with Markov结构 for $s < t$ :

$q(x_t \vert x_s) = \mathcal{N}(x_t \vert \alpha_{t\vert s} x_s, \sigma_{t\vert s}^2 \mathbb{I})$ （5）

$\alpha_{t\vert s} = \frac{\alpha_t}{\alpha_s}$ （6）

$\sigma_{t\vert s}^2 = \sigma_t^2 - \alpha_{t\vert s}^2 \sigma_s^2$ （7）

去噪扩散模型是生成模型 $p(x_0)$ ，它恢复(revert)这个过程，使用类似马尔可夫结构，时间上反向运行，也就是，其被指定为：

$p(x_0) = \int_{z} p(x_T) \prod_{t=1}^T p(x_{t-1} \vert x_t)$ （8）

然后，与该模型相关的证据下限（evidence lower bound，ELBO）在离散时间步长上分解为：

$-\text{log} p(x_0) \leq \mathbb{KL}(q(x_T \vert x_0) \vert p(x_T)) + \sum_{t=1}^T \mathbb{E}_{q(x_t \vert x_0)} \mathbb{KL}(q(x_{t-1} \vert x_t, x_0) \vert p(x_{t-1} \vert x_t))$

（9）

通常选择先验 $p(x_T)$ 作为标准正态分布，然后ELBO的第一项仅取决于最终信噪比 $\text{SNR}(t)$ 。为了最小化剩下的项，通常选择参数化 $p(x_{t-1} \vert x_t)$ 是根据真后验 $q(x_{t-1} \vert x_t, x_0)$ ，但未知 $x_0$ 由基于当前步骤 $x_t$ 的估计 $x_\theta(x_t, t)$ 代替。这给出了[45]

$p(x_{t-1} \vert x_t) :=q(x_{t-1} \vert x_t, x_\theta(x_t, t))$ （10）

$= \mathcal{N}(x_{t-1} \vert \mu_\theta(x_t, t), \sigma_{t\vert t-1}^2 \frac{\sigma_{t-1}^2}{\sigma_t^2}\mathbb{I})$ （11）

The prior p(xT ) is typically choosen as a standard normal distribution and the first term of the ELBO then depends only on the final signal-to-noise ratio SNR(T).To minimize the remaining terms, a common choice to parameterize p(xt−1|xt) is to specify it in terms of the true posterior q(xt−1|xt, x0) but with the unknown x0 replaced by an estimate xθ(xt, t) based on the current step xt. This gives [45]

其中平均值可以表示为：

$\mu_\theta(x_t, t) = \frac{\alpha_{t\vert t-1} \sigma_{t-1}^2}{\sigma_t^2} x_t + \frac{\alpha_{t-1} \sigma_{t\vert t-1}^2}{\sigma_t^2} x_\theta(x_t, t)$ （12）

在这种情况下，ELBO的求和简化为：

$\sum_{t=1}^T \mathbb{E}_{q(x_t \vert x_0)} \mathbb{KL}(q(x_{t-1} \vert x_t, x_0) \vert p(x_{t-1}) =$

$\sum_{t=1}^T \mathbb{E}_{\mathcal{N}(\epsilon \vert 0, \mathbb{I})} \frac{1}{2}(\text{SNR}(t-1) - \text{SNR}(t)) \Vert x_0 - x_\theta(\alpha_t x_0 + \sigma_t \epsilon, t) \Vert^2$ （13）

跟随[30]，我们使用重参数化：

$\epsilon_\theta(x_t, t) = (x_t - \alpha_t x_\theta(x_t, t))/\sigma_t$ （14）

将重建项表示为去噪目标：

$\Vert x_0 - x_\theta(\alpha_t x_0 + \sigma_t \epsilon, t) \Vert^2 = \frac{\sigma_t^2}{\alpha_t^2} \Vert \epsilon - \epsilon_\theta(\alpha_t x_0 + \sigma_t \epsilon, t) \Vert^2$ （15）

并且重新加权，其为每个项分配相同的权重并得到等式（1）中的结果。

C 图像引导机制

图14.在景观上，无条件模型的卷积采样可以导致均匀和不一致的全局结构（见第2列）。具有低分辨率图像的L2引导可以帮助重建相干全局结构。Figure 14. On landscapes, convolutional sampling with unconditional models can lead to homogeneous and incoherent global structures(see column 2). L2-guiding with a low resolution image can help to reestablish coherent global structures.

扩散模型的一个有趣的特点是，无条件模型可以在测试时进行调节(conditioned)[15，82，85]。

特别是，[15]提出了一种算法，以引导在ImageNet数据集上训练的无条件和有条件模型，该算法使用分类器 $\log p_{\Phi}(y\vert x_t)$ ，在扩散过程的每个 $x_t$ 上训练。我们直接建立在这一公式的基础上，并引入post-hoc图像引导：

对于具有固定方差的epsilon参数化模型，[15]中介绍的引导算法如下：

$\hat{\epsilon} \leftarrow \epsilon_\theta(z_t, t) + \sqrt{1-\alpha_t^2}\; \nabla_{z_t} \log p_{\Phi}(y\vert z_t) \$ （16）

这可以解释为用条件分布 $\log p_{\Phi}(y\vert z_t)$ 修正“分数” $\epsilon_\theta$ 的更新。(This can be interpreted as an update correcting the “score” cθ with a conditional distribution log pΦ(y|zt).)

到目前为止，这个场景只应用于单类别分类模型。我们重新解释引导分布 $p_{\Phi}(y\vert T(\mathcal{D}(z_0(z_t))))$ 为给定目标图像 $y$ 的通用图像到图像翻译任务，其中 $T$ 可以是现成的图像到图像转换任务采用的任何可微变换，例如恒等、下采样操作或类似操作。

例如，我们可以假设具有固定方差 $\sigma^2=1$ 的高斯引导，这样

$log p_{\Phi}(y\vert z_t) = -\frac{1}{2}\Vert y- T(\mathcal{D}(z_0(z_t))) \Vert^2_2$ （17）

成为L2回归目标。

图14展示了该 formulation如何作为无条件模型的上采样机制，模型在256^2的图像上训练，其中256^2大小的无条件样本引导512^2图像的卷积合成， $T$ 是2×双三次下采样。根据这一动机，我们还试验了感知相似性指导，并用LPIPS[106]度量代替L2目标，见第4.4节。

D 附加结果

D.1 选择高分辨率合成的信噪比

如第4.3.2节所述，潜在空间方差（即 $\text{Var(z)}/\sigma^2_t$ ）引起的信噪比显著影响卷积采样的结果。例如，当直接在KL正则化模型的潜在空间中训练LDM时（见表8），这个比率非常高，因此模型在反向去噪过程(reverse denoising process)的早期分配了大量语义细节。相反，当按第G节所述的根据latents的元素级标准差重新缩放潜在空间时(rescaling the latent space by the component-wise standard deviation of the latents)，SNR会降低。我们在图15中说明了对语义图像合成卷积采样的影响。注意，VQ正则化空间的方差接近1，因此不必重新缩放。

D.2 所有第一阶段模型的完整列表

我们在表8中提供了在OpenImages数据集上训练的各种自动编码模型的完整列表。

（编者注：表8被挪到正文4.1节）

D.3 布局到图像的合成

在这里，我们为第4.3.1节中的布局到图像模型提供了定量评估和额外样本。我们在COCO[4]上训练了一个模型；我们还训练了另一个模型是在OpenImages[49]数据集上训练，然后在COCO上进一步微调。表9显示了结果。当遵循其训练和评估协议时，我们的COCO模型在布局到图像合成方面达到了最先进模型的性能[89]。当从OpenImages模型进行微调时，我们超越了这些工作。我们的OpenImages模型在FID方面超过Jahn等人[37]的结果近11。在图16中，我们显示了在COCO上微调的模型的其他样本。

表9.我们的布局到图像模型的定量比较，在COCO[4]和OpenImages[49]数据集上。†：在COCO上从头训练；*：从OpenImages微调。Table 9. Quantitative comparison of our layout-to-image models on the COCO [4] and OpenImages [49] datasets. †: Training from scratch on COCO; *: Finetuning from OpenImages.

D.4 ImageNet上的类别条件图像合成

表10包含在FID和感知得分（IS）中测量的类别条件LDM的结果。LDM-8需要更少的参数和计算需求（见表18，在附录F节中），以实现极具竞争力的性能。与之前的工作类似，我们可以通过在每个噪声尺度上训练分类器并进行引导来进一步提高性能，请参见第C节。与基于像素的方法不同，这种分类器在潜在空间中的训练成本非常低。其他定性结果见图26和图27（见文末）。

D.5 样本质量 vs. V100天（续第4.1节）

为了评估第4.1节中训练过程中的样本质量，我们报告了FID和IS分数作为训练步骤的函数。另一种可能是在V100天内报告这些指标。图17中还提供了这种分析，显示了定性相似(qualitatively similar)的结果。

D.6 超分辨率

为了提高LDM和像素空间扩散模型的可比性，我们从表5出发扩展了我们的分析，比较相同步骤数训练的扩散模型，参数量和我们的LDM相当。这种比较的结果显示在表11的最后两行中，并表明LDM实现了更好的性能，同时允许更快的采样。图20给出了定性比较，其中显示了像素空间中LDM和扩散模型的随机样本。

图20.LDM-SR和基线像素空间扩散模型之间两个随机样本的定性超分辨率比较。在相同数量的训练步骤后，在imagenet验证集上进行评估。

D.6.1 LDM-BSR：通过多种图像退化的通用SR模型

General Purpose SR Model via Diverse Image Degradation

为了评估LDM-SR的通用性，我们将其应用于来自类别条件ImageNet模型（第4.1节）的合成LDM样本和从互联网抓取的图像。有趣的是，我们观察到LDM-SR（如[72]所示，仅使用双三次下采样条件训练）不能很好地推广到不遵循此预处理的图像。因此，为了获得广泛的真实世界图像的超分辨率模型，该模型可能包含相机噪声、压缩伪影、模糊和插值的复杂叠加，我们用[105]中的退化流水线替换了LDM-SR中的双三次下采样操作。BSR退化过程是一个退化流水线，它以随机顺序将JPEG压缩噪声、相机传感器噪声、用于下采样的不同图像插值、高斯模糊核和高斯噪声应用于图像。我们发现，使用如[105]中的原始参数的BSR退化过程会导致非常强的退化过程。由于更温和的退化过程似乎适合我们的应用程序，因此我们调整了BSR退化的参数（我们调整的降级过程可以在我们的代码库https://github.com/CompVis/platent diffusion中找到）。图18通过直接比较LDM-SR和LDM-BSR说明了该方法的有效性。后者生成的图像比仅限于固定预处理的模型更清晰，使其适用于真实世界的应用。在LSUN-cows上LDM-BSR的进一步结果如图19所示。

图19.LDM-BSR泛化到任意输入，并可用作通用上采样器，将LSUN-Cows数据集的样本上采样到1024^2分辨率

E 实施细节和超级参数

E.1 超参数

我们在表12、表13、表14和表15中概述了所有训练LDM模型的超参数。

Table 12. Hyperparameters for the unconditional LDMs producing the numbers shown in Tab. 1. All models trained on a single NVIDIA A100.

Table 13. Hyperparameters for the conditional LDMs trained on the ImageNet dataset for the analysis in Sec. 4.1. All models trained on a single NVIDIA A100.

Table 14. Hyperparameters for the unconditional LDMs trained on the CelebA dataset for the analysis in Fig. 7. All models trained on a single NVIDIA A100. *: All models are trained for 500k iterations. If converging earlier, we used the best checkpoint for assessing the provided FID scores.

Table 15. Hyperparameters for the conditional LDMs from Sec. 4. All models trained on a single NVIDIA A100 except for the inpainting model which was trained on eight V100.

E.2 实施细节

E.2.1 条件LDM的 $τ_θ$ 的实现

对于文本到图像和布局到图像（第4.3.1节）合成的实验，我们将调节器(conditioner) $τ_θ$ 实现为无掩模transformer，它处理输入 $y$ 的tokenized版本，并产生输出 $ζ:=τ_θ(y)$ ，其中 $ζ∈ \mathbb{R}^{M\times {d_τ}}$ 。

更具体地说，transformer由N个transformer块实现，该transformer块由全局自注意层、层归一化和逐位置MLP组成，如下：

原注：从这个adapted而来：https://github.com/lucidrains/x-transformers

$ζ$ 可用时，调节(conditioning)通过交叉注意机制映射到UNet中，如图3所示。我们修改了“ablated UNet”[15]架构，并用浅（无掩模）transformer替换自注意层，该transformer由 $T$ 块组成，交替为（i）自注意，（ii）逐位置MLP和（iii）交叉注意层；见表16。注意，如果没有（ii）和（iii），该架构等同于“ablated UNet”。

表16.第E.2.1节所述transformer块的结构，取代了标准“ablated UNet”结构[15]的自注意力层。这里，

n_h

表示注意力头数，

d

表示每个注意头的维度。

虽然可以通过额外调节时间步 $t$ 来增加 $τ_θ$ 的表示能力，但我们不追求这种选择，因为它降低了推断速度。我们将对这一修改进行更详细的分析，留待以后的工作。

对于文本到图像模型，我们依赖于公开可用的tokenizer[99]。布局到图像模型将边框的空间位置离散化，并将每个框编码为 $(l,b,c)$ 元组，其中 $l$ 表示（离散的）左上角位置， $b$ 表示右下角位置。关于 $τ_θ$ 的超参数，见表17；关于上述两项任务的UNet超参数，参见表13。

（原注：公开可用的tokenizer，https://huggingface.co/docs/transformers/model_doc/bert#berttokenizerfast）

注意，第4.1节中描述的类别条件模型也是通过交叉注意层实现的，其中 $τ_θ$ 是维度为512的单个可学习嵌入层，将类别 $y$ 映射到 $ζ∈ \mathbb{R}^{1\times 512}$ 。

表17。第4.3节中transformer编码器实验的超参数。

E 2.2 图像修复

对于第4.5节中的图像修复实验，我们使用代码[88]生成合成掩模。我们使用了一组固定的来自Places的2k个验证和30k个测试样本[108]。在训练期间，我们使用大小为256×256的随机裁剪，并对大小为512×512的裁剪进行评估。这遵循[88]中的训练和测试协议，并复制其报告的指标（见表7中的†）。我们在图21中包括了LDM-4 w/attn的其他定性结果，在图22中包括LDM-4 w/o attn，big，w/ft的定性结果。

编者注：图21在正文4.5节中。

图22。如图11所示，物体移除的更多定性结果。

E.3 评估详情

本节提供了第4节所示实验评估的其他详细信息。

未完待续......

E.3.1 无条件和类别条件图像合成的定量结果

我们遵循常规做法，并根据来自我们模型的50k个样本和每个显示数据集的整个训练集，估计用于计算表1和10中所示FID、精度和召回分数[29，50]的统计数据。为了计算FID分数，我们使用火炬保真度包[60]。然而，由于不同的数据处理管道可能导致不同的结果[64]，我们还使用Dhariwal和Nichol提供的脚本评估了我们的模型[15]。我们发现，除ImageNet和LSUN Bedrooms数据集外，结果基本一致，我们注意到分数略有不同，分别为7.76（火炬保真度）和7.77（Nichol和Dhariwal）以及2.95和3.0。对于未来，我们强调统一的样品质量评估程序的重要性。精度和召回率也通过使用Nichol和Dhariwal提供的脚本进行计算。

E、 3.2文本到图像合成

根据[66]的评估协议，我们通过将生成的样本与MS-COCO数据集验证集的30000个样本进行比较，计算表2中文本到图像模型的FID和初始得分[51]。FID和初始得分采用火炬保真度计算。

E、 3.3图像合成布局

为了评估COCO数据集表9中我们的布局到图像模型的样本质量，我们遵循常见做法[37，87，89]，并计算COCO分割挑战分割的2048个未分段示例的FID分数。为了获得更好的可比性，我们使用了与[37]中完全相同的样本。对于OpenImages数据集，我们同样遵循他们的协议，并使用验证集中2048个中心裁剪的测试图像。

E、 3.4超分辨率

我们按照[72]中建议的管道在ImageNet上评估超分辨率模型，即去除尺寸小于256像素的图像（用于训练和评估）。在ImageNet上，使用具有抗锯齿的双三次插值生成低分辨率图像。FID使用火炬保真度进行评估[60]，我们在验证分割上制作样本。对于FID分数，我们还将其与列车分割计算的参考特征进行了比较，见表5和表11。

E、 3.5效率分析

出于效率原因，我们基于5k个样本计算了图6、17和7中绘制的样本质量度量。因此，结果可能与表1和表10中所示的结果不同。所有模型都具有表13和表14中提供的可比数量的参数。我们最大化了各个模型的学习率，使它们仍然稳定地训练。因此，不同跑步之间的学习率略有不同cf。表13和14。

E、 3.6用户研究

对于表4中所示的用户研究结果，我们遵循[72]的协议，并使用2种替代力选择范式来评估两种不同任务的人类偏好得分。在任务1中，受试者被显示在相应的地面真相高分辨率/无掩模版本和合成图像之间的低分辨率/掩模图像，合成图像通过使用中间图像作为条件生成。对于超分辨率，受试者被问及：“两幅图像中哪一幅是中间低分辨率图像的高质量版本？”。对于Inpainting，我们问“这两幅图像中哪一幅包含了图像中间更逼真的修复区域？”。在任务2中，人类同样被展示了低分辨率/蒙面版本，并被要求在两种竞争方法生成的两个对应图像之间进行偏好选择。在[72]中，人类在做出反应之前观看了3秒钟的图像

F、计算要求

在表18中，我们对我们使用的计算资源进行了更详细的分析，并使用提供的数字将CelebA HQ、FFHQ、LSUN和ImageNet数据集上的最佳性能模型与最新的最先进模型进行比较，cf。[15]。由于他们在V100天内报告了他们使用的计算，并且我们在单个NVIDIA A100 GPU上训练了所有模型，因此我们假设A100与V100的速度比为2.2倍，从而将A100天转换为V100天[74]4。为了评估样本质量，我们还报告了报告数据集上的FID分数。我们接近StyleGAN2[42]和ADM[15]等最先进方法的性能，同时显著减少了所需的计算资源

G、自动编码器型号详情

我们在[23]之后以对抗的方式训练我们的所有自动编码器模型，使得基于补丁的鉴别器Dψ被优化以区分原始图像和重建D（E（x））。为了避免任意缩放的潜在空间，我们将潜在z正则化为零中心，并通过引入正则化损失项Lreg来获得小方差。我们研究了两种不同的正则化方法：（i）在标准变分自动编码器[46，69]中，qE（z|x）=N（z；Eµ，Eσ2）和标准正态分布N（z，0，1）之间的低权重Kullback-Leibler项，以及（ii）通过学习|z|不同示例的码本，用矢量量化层正则化潜在空间[96]。为了获得高保真度重建，我们只对这两种场景使用非常小的正则化，即我们通过因子对KL项进行加权∼ 10−6或选择高码本维度|Z|。训练自动编码模型（E，D）的完整目标如下：

潜在空间中的DM培训

注意，对于学习的潜在空间上的训练扩散模型，我们再次区分了学习p（z）或p（z|y）时的两种情况（第4.3节）：（i）对于KL正则化的潜在空间，我们采样z=Eµ（x）+Eσ（x）·ε=：E（x），其中ε∼ N（0，1）。当重新缩放潜在值时，我们估计分量方差

从数据中的第一批数据中，其中µ=1 bchw P b，c，h，w z b，c、h，w。对E的输出进行缩放，使得重新缩放的潜像具有单位标准偏差，即z← 对于VQ正则化潜空间，我们在量化层之前提取z，并将量化操作吸收到解码器中，即它可以被解释为D的第一层。

H、其他定性结果

最后，我们为景观模型（图12、23、24和25）、类条件ImageNet模型（图26-27）和CelebA HQ、FFHQ和LSUN数据集的无条件模型（图28-31）提供了额外的定性结果。与第4.5节中的修复模型类似，我们还直接在5122张图像上微调了第4.3.2节中的语义景观模型，并在图12和图23中描述了定性结果。对于在相对较小的数据集上训练的那些模型，我们还显示了VGG[79]特征空间中的最近邻居，用于图32-34中我们模型的样本。

同一仓库的另一篇论文

Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models

https://arxiv.org/abs/2207.13038 （只有几页，而且大部分都是配图）

基于检索增强扩散模型的艺术图像文本引导合成

相关中译：https://www.jianshu.com/p/1008149f01e8

Latent Diffusion：高分辨率图像合成

推荐阅读更多精彩内容