深度学习之-Stable Defusion简介

Stable Defusion是一个从文件生成图像的深度学习模型，

图1：示例

Stable Defusion是基于LDM(Latent diffusion mode, 潜在扩散模型)，但在LDM基础上进行了该进，Stable Defusion流程和LDM一致：

LDM流程图

Stable Defusion原理：基于VAE将图像转为低维的潜空间，配合条件极值的DM将此低维空间转化的新的变量，再VAE解码将此生成的变量转化为新的图片

DM本身是个生成模型:

Defusion model

分两个步骤：

为了将图像从噪声中还原，需要训练一个噪声预测器(Noise predictior)，训练流程：往图像加入一个随机噪声，然后使用预测器预测加入了多少噪声，重复该流程，直到预测器能很好的预测噪声。

编码器将图像从高维的像素空间(256 * 256 * 3)转化为低维的潜在空间(latent space 4 * 64 * 64)，该转化几乎不会损失人类能察觉的细节。
解码器将潜在空间转化为原来的空间。

VAE需要训练是为了学习两个核心能力：
1）如何将复杂的高维数据（如图片）压缩到一个有意义的低维“潜在空间”；
2）如何从这个低维空间中生成新的、类似真实数据的数据。

VAE编码器对图像进行降维等到 Latent image input ,然后用训练好的DM，不断对图像进行噪声预测，并对Latent image input进行去噪处理，经过多步后生成 Latent image output，并用VAE的解码器输出图像。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。