Flux.1 dev 模型的架构可以做如下简化
Flux 简化架构
T5 google 出品的文本模型,这里使用的是 1.1 版本
CLIP OpenAI 开发的预训练模型,在大型的图像以及图像对应的文本描述的数据集上训练,能够很好的连接图像和文本信息,在一些文生图模型比如 DALL-E,Stable Diffusion中广泛使用。Flux 使用的是 openai/clip-vit-large-patch14 版本
Diffusion Transformer 将 transformer 应用到了扩散模型,通过结合扩散模型的降噪能力与 Transformer 的长距离关系建模能力,来生成高质量、细节丰富的图像。diffusion transformer接受 T5 和 CLIP 合并后的文本嵌入,并接受 scheduler 通过扩散方法生成图像。
VAE 实际使用的是解码器,负责将 diffusion transformer 产生的潜在空间向量解码为图像。