麻省理工学院AI图像生成系统让《DALL-E 2》等模型散发出创意
DALL-E 2使用了一种叫做扩散模型的概念,它试图将整个文本编码为一个描述来生成一个图像。然而,一旦文本有了更多的细节,单一的描述就很难捕捉到它的全部。此外,虽然它们高度灵活,但扩散模型有时很难理解某些概念的构成,例如混淆不同对象之间的属性或关系。
研究人员能够用"一只狗"和"天空"的文字创造出一些令人惊讶的、超现实的图像。左边出现的是一只狗和云,下面标有"狗"和"天空",右边出现的是两张像云一样的狗的图像,下面标有"狗和天空"。
"这项研究提出了一种在文本-图像生成中合成概念的新方法,不是通过串联它们来形成提示,而是通过计算与每个概念有关的分数,并使用连接和否定运算符来合成它们,"Mark Chen说。他是DALL-E 2的共同创造者,也是OpenAI的研究科学家。"这是一个很好的想法,它利用了扩散模型的基于能量的解释,因此,围绕着使用基于能量的模型的组合性的旧想法可以被应用。该方法还能够利用无分类器的指导,令人惊讶的是,它在各种构成性基准上的表现优于GLIDE基线,并能在质量上产生非常不同的图像生成类型。"
"人类可以以无数种方式组成包括不同元素的场景,但这项任务对计算机来说是具有挑战性的,"Adobe Systems的研究科学家Bryan Russel说。"这项工作提出了一个优雅的表述,它明确地组成了一组扩散模型,以生成一个给定的复杂自然语言提示的图像。