扩散模型 - Stable Diffusion

4 Stable Diffusion

**Stable Diffusion** 是由 Stability AI 开发的**开源**扩散模型。Stable Diffusion 可以完成多模态任务,包括:文字生成图像(text2img)、图像生成图像(img2img)等。

4.1 Stable Diffusion 的组成部分

2940b5ace4610baa.jpg
Stable Diffusion 由两部分**组成**:
  • 文本编码器:提取文本 prompt 的信息

  • 图像生成器:根据文本 embedding 生成图像

    • 图像信息创建器:多步扩散过程。步长是其中一个超参数
    • 图像解码器:只在最后生成图像时运行一次
  • 文本编码器:由一种特殊的 Transformer 编码器组成,例如:OpenAI 的 Clip。

  • 图像信息创建器:自编码器(通常是 U-Net)和噪音机制组成。

  • 图像解码器:由自编码器的解码器组成。

    Stable Diffusion Pipeline

  • Clip:文本信息编码

    • 输入:文本
    • 输出:77 token 的 embedding 向量,每个包含 768 维
  • U-Net + Noise Scheduler:逐渐把信息扩散至潜空间中

    • 输入:文本 embedding 和由噪音组成的多维 tensor
    • 输出:处理后的 tensor
  • 自编码器的解码器:使用扩散/处理后的信息生成图像

    • 输入:经过处理的 tensor(shape: (4, 64, 64))
    • 输出:生成图像(shape:(3, 512, 512))

4.2 扩散过程(图像信息创建器)

扩散过程发生在**图像信息创建器**中。该过程**一步步(step by step)**进行。初始的输入为文本 embedding 和一个随机的图像信息数组(也称为潜变量 latents)。每一步扩散的输入是潜变量,输出是信息进一步丰富的潜变量。最终的输出是一张图像。如图:
973e293a3dedcc26.jpg

4.2.1 扩散过程的工作原理

扩散过程的原理其实是**训练**了一个基于 U-Net 和噪音等级机制(schedule)的**噪音等级预测器。**

扩散过程包含如下阶段:

  • 数据集准备阶段:生成训练数据
    • 输入:包含清晰图像的数据集、不同级别的噪音等级机制
    • 流程:从数据集中抽样得到清晰图像,从噪音等级机制中抽样得到某种级别的噪音样本,把该噪音和图像融合
    • 输出:带有某种等级的噪音图像
  • 训练阶段:训练噪音等级预测器
    • 输入:把上一阶段中的噪音图像清晰图像作为输入数据,对应的噪音样本作为标签。
    • 训练:采用 U-Net 作为神经网络,采用监督 loss 对输入进行学习
    • 输出:某种等级的噪音样本
  • 推断阶段:去噪并生成图像
    • 输入:训练完成的 U-Net、某个噪音图像

    • 推断:U-Net 输出该噪音图像的噪音等级(噪音样本)

    • 输出:把噪音图像减去噪音样本,得到去噪图像。不断重复该过程,最终得到类似清晰图像的图像(并不一定完全相同)

      生成图像的结果依赖于训练数据集。例如:Stable Diffusion 采用了带有艺术效果的 LAION Aesthetics 数据集,因此生成图像也具有艺术效果。

4.3 提速:在潜空间扩散

Stable Diffusion 的扩散过程是在**潜空间**中开展的,而不是整个图像像素,这样的**压缩过程**加速了图像生成的速度。

该压缩过程通过**自编码器(autoencoder)**实现。自编码器的编码器把图像压缩至潜空间,并用解码器根据压缩信息重建图像。因此,在前向扩散过程中,等级噪音应用于潜变量,而不是图像像素。所以 U-Net(噪音预测器)预测的噪音也是以潜变量的形式表示的。
ebed79e9e9bc3d78.jpg
**前向扩散过程就是给清晰图像不断添加噪音的过程**,也是生成数据集训练噪音预测器的过程,当噪音预测器训练完毕后,就可以运行**反向抽样过程来去噪并重建图像**。

在 Stable Diffusion、LDM(潜变量扩散模型) 的论文中,该流程如下:
e51fdc36e5db13b0.jpg

4.4 Transformer(文本编码器)

Transformer 模型根据文本输入生成 token embedding。

Stable Diffusion 的开源模型中使用的是 OpenAI 的 CLIP(基于 GPT),而其论文中使用的是 Google 的 BERT。两者都是 Transformer 的编码器(encoder)。

有工作指出:文本编码器的选择对于扩散模型的表现比图像生成器的选择更重要。

4.4.1 CLIP 的训练过程

CLIP 的训练流程为:
  • 输入:训练数据为网页爬取的图像和其对应 HTML 标签属性 alt,也就是图像 + 注释(caption)
  • 训练:CLIP 分别使用图像编码器和文本编码器把两种输入数据转化为图像 embedding 和文本 embedding,使用余弦相似度作为 loss 和标签 embeddings 进行比较并更新参数
  • 输出:训练完毕的 CLIP 接收图像和文本描述并生成对应的 embeddings
160a99ed45e0c035.jpg

4.5 加入文本数据

有了文本编码器后就要给扩散模型**加入文本**数据。

下面是有、无文本的扩散过程对比:
77fb544dc1d5b164.jpg
加入文本数据后,噪音预测器(U-Net)也要发生相应变化,主要是在每个 **ResNet 块后添加注意力运算:**
b41bd4b5065c0854.jpg

参考

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,997评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,603评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,359评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,309评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,346评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,258评论 1 300
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,122评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,970评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,403评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,596评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,769评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,464评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,075评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,705评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,848评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,831评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,678评论 2 354

推荐阅读更多精彩内容