是什么让人工智能突然开始画画了?

封面图就是用扩散模型画的。

这是最近两个大火的模型,直接冲到抱抱脸的首页。

最先火起来的是图二。因为DALLE-2出来了,由于DALLE-2只对部分大佬开放,因此它的替代品DALLE-mini就火了起来。

之后没几天stable diffusion出来了!最最重要的一点是stable diffusion已经向公众开放了(当然是付费的)。今天就来说一下这几个模型背后的东西。

今天我们来看一下这俩模型的生成效果,然后浅浅说一下背后的算法支撑。

stable diffusion生成的图片:

下面这三个例子都是直接调用stable diffusion生成的图片。在这里是直接做的zero-shot的text-to-image生成。

先看第一个,我用的是A dog is writing a blog,就是一个狗正在写博客。他一共给我生成了4张候选,我在这里只截了其中的两张图片。我们可以看到第二张好像还是比较真实的,就是一个狗趴在地上拴个绳,正在拿着笔在纸上写什么东西。我们可以勉强认为它达到了我的要求,生成了一个狗正在写博客的图片。

然后看第二张图,第二张图我的提示是a black cat wears a red skirt。就是一只黑猫穿着一个红色的裙子。它也是生成了4个候选,我截图了最现实的一张,可以看到一个黑猫穿着一个红色的小衣服。

然后再看第三组图片,我的提示是a Teddy bear plays computer games。就是一个泰迪熊正在打游戏。可以看到图二还是比较正常的,好像是在打游戏的样子。

可能因为我这几个例子都比较奇葩,所以它生成不太出来。整体效果还算是差强人意的。

差强人意:勉强使人满意。

所谓zero-shot生成,你可以简单的理解为我可以直接拿来就用,不用再对模型进行调教了。

说几个相关的概念

微调: 想一下这样,比如我拿掘金沸点训练一个说话的模型,那这个模型说出来的内容必然是沸点摸鱼的内容、和程序员相关的内容、和彩礼孩子起名相关的内容。你要让他说一下去长沙旅游怎么样,他大概率是说不出来的。

那怎么能让它说旅游相关的东西?你可以用去那儿、鞋程、马蜂喔、妹团等网站的一些用户评论来训练它。这样你问他长沙,那他就能和你说长沙旅游的事了。

few-shot: 那你想说,我一个普通用户,哪里会微调模型,所以能不能别让我微调? 可以。当训练的数据量足够大,模型能记住足够多的东西的时候,你可以不用自己训练了。但是他记住的东西太多了,还没有那么智能,他回答你之前你需要给他一点提示。这就是few-shot。

one-shot: 对比上边,不用给几个提示,给一个提示就够了。

zero-shot:我根本不用提示,直接开搞好吧。

DALLE-2

接下来看一下DALLE-2的效果:

因为这个我前面提到了它只对部分大佬开放。虽然开放了一些用户内测的申请,但是像我这种肯定是申请不上的,毕竟亚马逊的大佬也没有申请上,还在排队中。这里我就放了一下大力兔(DALLE-2)论文原文中的几个示范图片。

它的文本信息以及它生成的图片,我们可以看到这个九宫格。生成的还是非常真实的。大力兔可以生成不同风格的完全原创的图片,就是说在模型生成之前,世界上根本不存在这张照片。

并且它能做的不止图中这几个,它还可以给你往图片上添加东西。比如说你给他一个图片。然后给他指定不同的位置,再给他说你要往那边添加什么,他就可以根据你的要求生成不同的图像。

下图我们可以看到在一个屋子内的不同位置给它添加火烈鸟。

如果你设置位置在室内,可以看到它会变成一个火烈鸟的游泳圈。如果你设置在室外的话,它会生成两个真实的火焰鸟。如果你设置在室内的泳池内,它又会生成一个火烈鸟的游泳圈。我们可以看到他身上的图片是比较贴合实际的,并且他会考虑到图片的阴影,光效的变化。就是普通的图像合成无法做到的东西。

是什么支撑着上面图像的生成?

从第一个名字中我们就可以知道支撑它背后的模型是什么。diffusion model,换成中文就叫扩散模型。其实这个东西火起来是非常偶然的事情,我看大家都在调侃这个东西,说本来大家做text to image是为了增强图像生成的能力的,没想到大家突然在这个莫名其妙的方向上卷了起来。

其实它并不是第一个图像生成模型。之前已经做的如火如荼的比如说GAN呀,GAN的生成已经非常成熟了。

先看这张图。这张图是用一张照片可以生成他年幼时候的样子。我们可以在途中看到两个非常眼熟的面孔:第一个是吴恩达。第三张图是闫乐坤。

然后再看这张图。这张图是使用gan做了4个对比,用一张图片生成他老年的样子,生成他戴眼镜的样子,生成他变性的样子,以及让他做一些其他的动作。

通过上述两个例子,我们可以看到gan生成的图像已经是非常真实的了。由于它生成的图像过于真实,所以他刚开始如火如荼的时候美国甚至为此颁布了两条法令:

  1. 禁止使用相关算法拿人脸生成淫秽色情资源。
  2. 禁止使用政治人物的脸说一些他没说过的话,做一些他没做过的事。

除此之外常用的图像生成模型还有VAE、flow等。在这里就不多做介绍了。

你想说既然人家的模型都已经生成的这么好了,那你为什么还要做一个扩散模型呢?

存在必然合理,时代发展必然有它的要求。相对于之前的模型扩散模型有它不可或缺的优点。我今天这篇文章主要就是为了让大家知道现在很火的两个生成模型,背后用的是扩散模型而已,至于之后的生成模型对比啊或者更详细的一些内容以及扩散模型的讲解和推导就是纯纯的算法知识了,想看的可以挪到这里:突然火起来的diffusion model是什么?。在这篇新闻性的文章中就不折磨大家了。

作者:LolitaAnn在掘金
链接:https://juejin.cn/post/7146367819565776910

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容