Flux 架构浅析

Flux.1 dev 模型的架构可以做如下简化


Flux 简化架构

T5 google 出品的文本模型,这里使用的是 1.1 版本

CLIP OpenAI 开发的预训练模型,在大型的图像以及图像对应的文本描述的数据集上训练,能够很好的连接图像和文本信息,在一些文生图模型比如 DALL-E,Stable Diffusion中广泛使用。Flux 使用的是 openai/clip-vit-large-patch14 版本

Diffusion Transformer 将 transformer 应用到了扩散模型,通过结合扩散模型的降噪能力与 Transformer 的长距离关系建模能力,来生成高质量、细节丰富的图像。diffusion transformer接受 T5 和 CLIP 合并后的文本嵌入,并接受 scheduler 通过扩散方法生成图像。

VAE 实际使用的是解码器,负责将 diffusion transformer 产生的潜在空间向量解码为图像。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容