人工智能的发展,简直和我们人类不能同日而语。就好比我们辛辛苦苦折腾一年,现在回顾2021年年初,可能觉得自己没啥变化,虽然经历了疫情、灾难或一些坎坎坷坷,也许成熟了点,经历了一年的事,又长大一岁。不过大概率会和年初一样,还是那个穷样,还是那么平淡,似乎生活就是一日复一日,没死没灾即为平安,没啥惊天动地地改变。而对于AI而言,则可能已经偷天换日、更新换代、时异事殊、今非昔比了。比如,今年年初惊动四座的DALL·E,甫一出现就引发关注,可谓开局得胜喧嚣一时。
而今,一不小心就又到年底了。这一年也匆匆快要结束了。而马不停蹄的人工智能领域,依然还有成果推出。没错,和DALL·E有关,就是OpenAI刚刚推出了一个新的文本生成图像模型,名叫GLIDE。一个年初,一个年尾,简直是首尾相连无缝衔接啊。
和年初老爸那一代120亿参数膘肥体壮的体型不同的是,GLIDE只有35亿参数。然而,长江后浪推前浪,GLIDE显然不可能毫无进步,相反,机智客看它的表现感觉,它进步的还可以,能生成的图像显得更为逼真更为符合逻辑。
符合逻辑这个词用得好,用得妙,简直可以说好得呱呱叫。因为,它居然仿佛真有和我们人类类似的对物理世界的认知逻辑意义一样,比如你让它画出八条腿的猫,它都懒得理会你的命令要求,好像觉得不合理一样“自作主张”生成符合客观规律的画。
据了解,GLIDE全称Guided Language to Image Diffusion for Generation and Editing,是一种扩散模型(diffusion model)。这个2015年才提出的模型,被证明在图像生成方面有很大的潜力,尤其是与引导结合来兼得保真度和多样性。而此次,OpenAI用了这个模型技术,展示了扩散模型的能力,秀了把肌肉。也有开源项目公开,机智客看了下,README.md比较简单,除了简单介绍外,介绍了安装方法了。有关详细的用法示例,需要参阅笔记本目录。text2im笔记本演示了如何使用无分类器引导的GLIDE(过滤)生成以文本提示为条件的图像。
inpaint笔记本显示了如何使用GLIDE(过滤)填充图像的遮罩区域,并以文本提示为条件。clip_-guided笔记本演示了如何使用GLIDE(过滤)+过滤噪音感知剪辑模型生成基于文本提示的图像。当然关于具体的技术参数和背景知识介绍,大家可以看论文专业介绍,这里不多介绍了。