最近AI作画确实很火,在DALL-E和Imagen崭露头角之后,ERNIE-ViLG、Stable-Diffusion(SD)、Disco-Diffusion相继开源开放,涌现出丰富多彩的AI作画作品。本次通过一个开源工具来整体测试三种模型效果,用几行代码就整体测试国内外模型的效果。
ERNIE-ViLG效果
prompt:明日方舟,炫酷,兽耳娘,机能风,卡通
项目地址:PaddleHub/modules/image/text_to_image/ernie_vilg at develop · PaddlePaddle/PaddleHub · GitHub
Stable-Diffusion(SD)效果
prompt:a beautiful landscape photography of snow covered Rocky mountains, a dead intricate tree in the foreground, sunset, dramatic lighting, by Marc Adamus
prompt:close-up maximalist illustration of panther, by makoto shinkai, akihiko yoshida, yoshitaka amano, super detailed, hd wallpaper, digital art
项目地址:https://github.com/PaddlePaddle/PaddleHub/tree/develop/modules/image/text_to_image/stable_diffusion
Disco-Diffusion效果
prompt:在artstation上的一幅美丽的画,一个独特的灯塔,照耀着它的光穿过喧嚣的血海
由greg rutkowski和thomas Kinkade所作
以上惊艳的文图生成效果,是通过PaddleHub三行Python代码实现的作品:
import paddlehub as hub
module = hub.Module(name="ernie_vilg")
results = module.generate_image(text_prompts=["巨大的白色城堡"])
以上ernie_vilg替换为stable_diffusion或disco_diffusion_ernievil_base即可轻松体验不同的文图生成模型,用户也可自定义修改text_prompts来获得不同的效果体验。
三行代码虽然简单,但是代码背后的文图生成模型可不简单,分别来源于现在文图生成领域最顶尖的开源成果:ERNIE-ViLG、Stable-Diffusion以及Disco Diffusion + ERNIE-ViL。以DD+ ERNIE-ViL为例,DD扩散模型负责从初始噪声或者指定初始图像中来生成目标图像,ERNIE-ViL负责引导生成图像的语义和输入的文本的语义尽可能接近,随着扩散模型在ERNIE-ViL的引导下不断的迭代生成新图像,最终能够生成文本所描述内容的图像。
国内外文生图模型的效果对比,大家可以自行测试,只需要三行代码就可以,项目地址: