参考自 LDM(Latent Diffusion Model)详解 - 知乎
1.DDPM(扩散模型)
基于马尔科夫链算法的对一个随机噪声逐步去噪声生成图像的过程,该过程是在图像直接进行加噪和去噪的链式过程

扩散模型
一个高分辨率的图像有几百万像素,在如此密集的像素下训练和推演非常消耗资源。
为提升扩散模型的生成效率,LDM(潜空间扩散模型)将推演从图像空间改到潜空间,潜空间的特征数更少,潜空间的概率分布可通过一个训练好的VAE得到,图像空间和潜空间使用训练好的VAE进行相互转换,图像空间->潜空间:Encode,潜空间->图像空间:Decode.
2.VAE
AE(AutoEncode)一种生成模型,包括编码器和解码器,其特征向量是连续的,VAE(VQ_VAE:Vector Quentised-Variational AutoEncode),和AE不同,其特征向量是离散的,这种离散值在机器视觉中叫视觉码本或者视觉字典,

VAE
VQ-GAN:一种改良的VQ_VAE.
3.LDM详细流程
LDM是二阶段模型,需要训练一个VAE和扩散模型:

算法流程
LDM流程有三部分:
- 图像压缩:上图左侧红色是一个VQ-VAE,将图像x编码为离散特征Z
- LDM:上图中中间绿色部分,上部为加噪部分,将Z加噪为Zt,下部为去噪部分,核心是交叉注意力(Crossattention)组成的U-net,将Zt降噪为Z
- 条件机制:如上图右侧,将图像、文本等前置条件编码为一个项目 To,将其送入到去噪过程。