从深度生成模型提取无监督图像分割器

Finding an Unsupervised Image Segmenter in Each of Your Deep Generative Models

摘要:最近的研究表明,许多人类可解释的方向存在于GANs的潜在空间中。在本文中,我们发展了一个自动寻找方向的过程,导致前景-背景图像分离,并使用这些方向来训练图像分割模型,而无需人工监督。我们的方法是不依赖于生成器的,在各种不同的GAN结构中产生了很强的分割效果。此外,通过利用在大型数据集(如ImageNet)上预先训练的gan,我们能够从一系列域中分割图像,而无需进一步的训练或微调。通过对图像分割基准的评估,我们在既不需要人工监督也不需要获取训练数据的情况下,与以前的工作进行了比较。总之,我们的结果表明,从预先训练好的深层生成模型中自动提取前景背景结构可以作为一种非常有效的替代人工监督的方法。

https://hub.fastgit.org/lukemelas/unsupervised-image-segmentation

https://arxiv.org/abs/2105.08127


自我监督和非监督学习在最近取得了重大进展,特别是在对比学习等自我监督技术方面[8,12]。然而,这方面的进展大多局限于图像表示。表示虽然有用,但没有明确的含义,因此不能立即采取行动;相反,仍然需要有监督的学习过程来将表示映射到有用的输出,例如图像类或对象检测。

自我监督学习最显著的替代方法是生成性建模,包括变分自动编码器和生成性对抗网络。这些方法学习将潜在代码映射到图像,对潜在代码的分布施加简单的统计结构,例如假设i.i.d.高斯分布。由于这种结构,在某些情况下,代码维度获得了与人类可解释概念相关的特定含义(例如,对象的旋转或大小);然而,高质量生成器(例如BigGAN[6]、BigGAN[11]、StyleGAN[22])中的代码空间通常不容易解释。然而,一个有效的生成过程应该考虑到自然图像的结构,这是很直观的。在这些结构中,最重要的可能是图像是由独立于观察者的多个物体组成的。

在本文中,我们考虑了学习的问题,没有监督,一个有意义的分离成前景和背景区域的图像。我们的方法从一个任意的、现成的、高质量的生成器网络开始,在一个大的(未标记的)图像语料库上进行训练。虽然这些生成网络没有显式地训练用于前场/背景分割,但我们表明,这样的分割隐式地出现,作为有效地编码逼真图像的一个步骤。具体地说,我们设计了一个探测方案,可以自动地从生成器中提取出这样的前景/背景信息,即不需要人工监控。

该方案的工作原理如下。我们从潜在空间中的随机码开始,学习一个固定的全局偏移量,该偏移量会导致生成的图像发生变化。该偏移被学习来改变前景和背景图像的外观,使得可以从图像空间的变化中提取掩模。

生成的遮罩为生成的图像提供了分割映射,但它们还不能用于从真实世界分割图像。对于一幅自然图像,最明显的方法是在生成器的潜在空间中找到相应的代码,然后用我们的方法得到一个掩模。不幸的是,这个反转过程并不简单。事实上,最近的工作提供了强有力的证据,证明GANs的表达能力不足以对任意图像进行编码[3],这意味着反演问题通常没有解决方案。

为了建立一种通用的分割方法,我们采用了一种不同的方法:生成一个带有前景/背景分割的标签图像数据集,并用生成的数据集训练一个标准的分割网络。在此基础上,我们证明我们的方法可以成功地学习准确的前景-背景分割网络,而无需手动提供标签。

与[47,48]最近的方法相比,我们的方法与我们的方法有一些相似之处,我们特别做出了以下贡献。首先,虽然[47,48]需要手动监控,以便在GAN空间中提取一个有意义的方向,但在我们的例子中,这个方向是完全自动识别的。这是一个关键的区别,因为这意味着我们的方法是无监督的。第二,[48]关注一个特定的生成网络,bigan[11],而我们考虑一个不同网络的大家族。这样做的重要性在于,它表明该方法可以在不需要特定于模型的手动干预的情况下,为多个模型显示有意义的代码空间方向。通过这种方式,我们证明了学习生成图像有助于学习前景/背景分割,即使对于没有经过专门训练以实现这种效果的通用生成器模型也是如此。

我们还表明,我们的方法可以学习'通用'前景背景分割。我们的意思是,通过从在通用大规模数据集(如ImageNet)上训练的生成器网络构建图像分割器,应用于分割特定数据集(如CUB200[52]和Oxford Flowers数据集[35])中的对象和显著区域,尽管训练数据和测试数据之间存在明显的统计偏差,但仍然可以获得很强的前景背景分割效果。此外,当在显著性检测基准上进行评估时,我们的方法接近(有时甚至超过)监督和手工显著性检测方法的性能,既不使用超视觉也不访问训练数据。

最后,我们发现分割效果与基础GAN的质量直接相关,这意味着前景/背景分离是学习生成模型的一个重要概念。此外,分割性能可以作为评估生成模型的一个客观指标——这仍然很困难,目前通常依赖于人类实验。

2.相关工作

我们的方法涉及生成模型、对象分割和显著性检测,如下所述。解读深层生成模型。

有几项工作提出了将生成模型的潜在空间分解为可解释或分离方向的方法。早期的工作包括Beta-VAE[13],它修改了原始VAE公式中的变分ELBO,以及InfoGAN[9],它最大化了潜在代码子集和生成数据之间的互信息。后来的研究试图通过混合潜在代码[16],增加额外的对抗性损失[31],以及使用对比学习[40]来解开变异因素。

我们的工作遵循了最近的一系列研究,即在大型、预先训练的生成模型中寻找结构[42]对模型权重进行直接分解以找到分离的方向,而[39]对不同潜在维度之间的非零二阶相互作用进行惩罚,并且[47]通过引入额外的重建网络来找到可解释的方向。

与上述工作不同的是,我们对潜空间中编码的一种特殊结构(前地/背景分离)进行了深入的研究。其他的工作在从2D图像中提取3D结构的背景下采用了这种方法[33];逆向图形GAN[29]使用神经渲染器来恢复场景的3D(基于体素)表示,GAN2Shape[38]利用生成图像中的视点和光照变化来恢复3D形状。

无监督目标分割。

以前在无监督对象分割方面的工作可以分为两类:使用生成模型来获得分割模板的工作和使用纯区别方法(如对比学习)的工作[17,37]。在这里,我们关注的是生成方法。

几乎所有的生成方法都是基于对生成过程进行分层分解的思想;通常,图像的前景和背景分别生成,然后组合以获得最终图像。具体来说,ReDo[7]训练生成器在旧对象的基础上重新绘制新对象,并通过对抗性训练增强现实主义[5] 分别生成背景、前景和前景掩码,并将它们组合在一起;它们通过相对于背景随机移动前景来防止退化输出(即前景和背景相同)。复制粘贴GAN[2]接收两个图像作为输入,并将一个图像的一部分复制到另一个图像上。OneGAN[1]学习使用GANs、VAE和其他编码器的组合来同时生成、聚类和分割图像。

我们的方法是基于生成模型的,但它不同于大多数其他方法,因为我们寻求在(标准的,非层次的)GANs中隐式编码的前场/背景结构,而不是显式编码。这使我们能够利用预先训练好的生成器,这些生成器具有在数百万高分辨率图像上训练的高度优化的体系结构,而不是为此特定任务开发新的GAN体系结构。

此外,基于显式图像分解的方法假设图像的前景和背景是独立的。这一假设在现实世界的数据中明显被违背(例如,鸟类更可能出现蓝色背景),这意味着这些方法在根本上是有限的。我们的方法不依赖于这种独立性假设。

最近的一项工作与这些优点相同[48],它使用了一个预训练的bigan发生器[11][48]使用[47]中的方法将la tent空间分解为可解释的方向,手动选择一个分离前景和背景的方向,然后使用该方向来训练分割模型。虽然这种方法不需要像素级的标签,但它仍然是监督的意义上,一个人必须手动选择所需的潜在方向。此外,不清楚这样的过程(即,来自[47]的方法)是否将为其他gan找到有效的前景/背景分离方向。与他们的方法不同,我们的方法是完全无监督的,适用于任意GANs,并且在对象分割和显著性检测基准上提供了优越的性能。

显著性检测。

目标分割与显著性检测密切相关,显著性检测是在图像中寻找显著目标的问题。在过去的几年中,人们对无监督/弱监督显著性检测进行了一些研究[32,55,59]。这些方法的工作原理是将强大的手工制作的先验知识进行整合,并将它们提炼成一个深层网络。在实际应用中,他们也用预训练(监督)的图像分类器或语义分割网络来初始化他们的网络。

最后,我们的方法可以从综合数据学习的角度来看待。例如,一个被广泛研究的研究领域[14、45、46、49、64]通过对视频游戏(例如GTA5)生成的数据进行训练来处理语义分割的任务。关于敌方生成的训练数据,特别是[44]使用类GAN网络来增强合成图像的真实性,同时保留标签信息。尽管我们只使用生成的图像来训练分割网络,但我们在下面的实验中表明,它可以推广到真实世界的图像,而不需要额外的自适应。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容