深度学习之-LDM(Latent diffusion mode)是什么

1.DDPM(扩散模型)

基于马尔科夫链算法的对一个随机噪声逐步去噪声生成图像的过程，该过程是在图像直接进行加噪和去噪的链式过程

扩散模型

一个高分辨率的图像有几百万像素，在如此密集的像素下训练和推演非常消耗资源。
为提升扩散模型的生成效率，LDM(潜空间扩散模型)将推演从图像空间改到潜空间，潜空间的特征数更少，潜空间的概率分布可通过一个训练好的VAE得到，图像空间和潜空间使用训练好的VAE进行相互转换，图像空间->潜空间:Encode，潜空间->图像空间:Decode.

2.VAE

AE(AutoEncode)一种生成模型，包括编码器和解码器，其特征向量是连续的，VAE(VQ_VAE：Vector Quentised-Variational AutoEncode)，和AE不同，其特征向量是离散的，这种离散值在机器视觉中叫视觉码本或者视觉字典，

VAE

VQ-GAN：一种改良的VQ_VAE.

3.LDM详细流程

LDM是二阶段模型，需要训练一个VAE和扩散模型：

算法流程

LDM流程有三部分：

图像压缩：上图左侧红色是一个VQ-VAE，将图像x编码为离散特征Z
LDM：上图中中间绿色部分，上部为加噪部分，将Z加噪为Zt，下部为去噪部分，核心是交叉注意力(Crossattention)组成的U-net，将Zt降噪为Z
条件机制：如上图右侧，将图像、文本等前置条件编码为一个项目 To，将其送入到去噪过程。

最后编辑于：2025.09.19 19:28:34

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

深度学习之-LDM(Latent diffusion mode)是什么