深度学习之-LDM(Latent diffusion mode)是什么

参考自 LDM(Latent Diffusion Model)详解 - 知乎

1.DDPM(扩散模型)

基于马尔科夫链算法的对一个随机噪声逐步去噪声生成图像的过程,该过程是在图像直接进行加噪和去噪的链式过程


扩散模型

一个高分辨率的图像有几百万像素,在如此密集的像素下训练和推演非常消耗资源。
为提升扩散模型的生成效率,LDM(潜空间扩散模型)将推演从图像空间改到潜空间,潜空间的特征数更少,潜空间的概率分布可通过一个训练好的VAE得到,图像空间和潜空间使用训练好的VAE进行相互转换,图像空间->潜空间:Encode,潜空间->图像空间:Decode.

2.VAE

AE(AutoEncode)一种生成模型,包括编码器和解码器,其特征向量是连续的,VAE(VQ_VAE:Vector Quentised-Variational AutoEncode),和AE不同,其特征向量是离散的,这种离散值在机器视觉中叫视觉码本或者视觉字典,

VAE

VQ-GAN:一种改良的VQ_VAE.

3.LDM详细流程

LDM是二阶段模型,需要训练一个VAE和扩散模型:


算法流程

LDM流程有三部分:

  • 图像压缩:上图左侧红色是一个VQ-VAE,将图像x编码为离散特征Z
  • LDM:上图中中间绿色部分,上部为加噪部分,将Z加噪为Zt,下部为去噪部分,核心是交叉注意力(Crossattention)组成的U-net,将Zt降噪为Z
  • 条件机制:如上图右侧,将图像、文本等前置条件编码为一个项目 To,将其送入到去噪过程。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容