如果问图像生成领域谁是数一数二的大哥,可能我们很多人会不约而同认为GAN是大哥。不过在这个风云变幻的人工智能时代,机智客觉得AI某领域的大哥的地位如同风云变幻的乱世一样,皇帝轮流做明年到我家。比GAN更优一步的新面孔,正在登上舞台中央的宝座。它就是扩散模型。
而在OpenAI发表的论文中就不无挑衅地直言,在图像生成上打败GAN”的模型:ADM-G模型。也就是本文的主角。据相关科技资讯显示,对比曾号称史上最强图像生成器的BigGAN-deep也不落下风,甚至还能在LSUN和ImageNet 64 × 64的图像生成效果上达到SOTA。
当然了,扩散模型也不算是第一次春光乍泄初出茅庐了,其实在2020年谷歌发表DDPM后就已经被提出来了,和GAN相比,扩散模型当然更新。而这么一个冉冉升起的新星般的新新人(人工智能的人)类,名曰扩散实则是迭代过程。它的生成图像其实是由一张完全由噪声构成的图形开始,通过预测每个步骤滤除的噪声,迭代去噪得到一个高质量的样本,然后再逐步添加更多的细节,在此生成途中加入类别条件,形成了一种独特的消融扩散模型的过程。具体的技术细节就不聊了。
目前这个论文项目在代码托管平台也有项目公开。语言是Python编程语言环境。在这个图像生成中扩散模型的代码库的项目里,它介绍该存储库基于openai改进的扩散,并对分类器条件和架构进行了修改。这里发布了多个checkpoints,我们可以下载并了解这些模型的预期用途。
项目里列举了64*64,128*128,256*256和512*512多种分类和扩散的预训练模型。还有从小到大分辨率的升采样模型。提供了卧室、猫、马的LSUN_.pt文件。我们可以从预先训练的模型中运行Python脚本取样。看起来很好玩的样子,不知道能否在Ubuntu里重现一下生成试试。另外呢,看关于它的介绍,它比起GAN来,生成的图像更多样也更复杂。在同样的训练集下,扩散模型居然还可以生成拥有全景、局部特写、不同角度的图像。就问你神不神奇,厉不厉害?