论文阅读“ Improving unsupervised image clustering with robust learning”

Park S, Han S, Kim S, et al. Improving unsupervised image clustering with robust learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 12278-12287.

摘要导读

无监督图像聚类方法经常引入替代目标来间接训练模型,受到了faulty predictions and overconfident results的影响。为了克服这些挑战,目前的研究提出了一种灵感来自于鲁棒学习的创新模型RUC。提出的RUC模型的新颖之处在于利用现有图像聚类模型输出的伪标签作为一个可能包含错误分类样本的噪声数据集。其再训练过程可以修正错位的知识,缓解预测中的overconfident问题。该模型的灵活结构使其可以作为其他聚类方法的附加模块使用,并帮助它们在多个数据集上获得性能的提升。大量实验表明,该模型可以通过更好的校准来调整模型的置信度,并使得模型有对抗性噪声的鲁棒性。


整个过程可以概括为:使用现有无监督聚类方法对无标签数据进行聚类标签的预测,利用一定的采样策略(类似于主动学习中对样本的选择策略),构建clean data(有标签数据)及unclean data(无标签数据),然后利用半监督方法对样本重新进行标签的预测更新,进入下一轮迭代中...

MixMatch储备知识

MixMatch损失半监督领域毕竟经典且权威的算法,已经有大佬对其算法进行了阐述,这里给出链接。MixMatch

模型浅析

RUC是一种附加方法,可以与现有的无监督聚类方法结合使用,以实现对错误的预测进行改进。其关键思想是利用初始聚类结果作为噪声伪标签,然后通过一系列聚类假设和鲁棒学习技术来对这些预测标签进行修正。

划分clean data和unclean data

给定数据集\mathcal{D}=\{(x_i, y_i)\}_{i=1}^N,x_i为图像样本,y_i=g_\phi(x_i)是其对应的伪标签。首先需要使用模型将数据集划分为两个完全不相交的子集\mathcal{D}=\mathcal{X}\cup\mathcal{U}。这里认为\mathcal{X}是clean的,其伪标签是中等可信的,因此可以用作一个标记的数据集(x,y )\in \mathcal{X}进行训练。而那些unclean的样本因为对应的标签的置信度较低被丢弃,这些样本形成的集合为\mathcal{U}。作者这里使用了三种采样的方式:
(1)Confidence-based strategy
该方法基于无监督分类器的置信度得分来选择clean样本。给定任意(x, y) \in \mathcal{D},若其软分配y满足max(y) > \tau_1,那么将其划分到clean样本集合\mathcal{X}中。
(2)Metric-based strategy
基于度量的方法利用了在无监督方式学习的额外嵌入网络h_\psi。给定任意(x, y) \in \mathcal{D},首先计算其嵌入表示h_\psi(x),然后利用非参模型k-NN来得出y'=k-NN(h_\psi(x))。如果其原始的软分配表示y满足argmax(y')=argmax(y),那么(x,y)被纳入\mathcal{X}集合。
(3)Hybrid strategy
综合以上两种采样方式,若其对应的条件同时满足,则纳入clean data,否则纳入unclean data。

Retraining via Robust Learning

给定\mathcal{X}\mathcal{U},下一步的目标是训练改进的分类器f_{\theta},以修正初始无监督分类器的错误预测。
\mathcal{X}\mathcal{U}分别看做标记数据和无标记数据,做半监督聚类。在本文中使用的是经典半监督算法MixMatch,其过程可简化表示为:

其中H(p,q)表示交叉熵损失。
除此之外,本文还引入了label smooting。标签平滑通过添加均匀噪声来定义软标签,提高了预测中的校准。给定一个带有相应标签(x,y )\in \mathcal{X}的标记样本,将所有标签注入均匀噪声,如下所示:
C是类别个数,\epsilon \sim Uniform(0,1)是噪声。这里使用软标记\tilde{y}和强增强样本\phi_A(x)的预测标记来计算交叉熵:
综合半监督的损失函数,最终其优化的目标可以表示为:
\lambda_{\mathcal{U}}是其中的平衡因子。

  • 为了避免overfitting带来的错误,在模型的设计中另外引入了一个共同训练模块,其中两个网络f_\theta(1)f_\theta(2)并行训练,通过增加一个co-refinement步骤来交换彼此的预测结果。co-refinement是一种标签修正的过程,旨在通过合并两个网络的预测来产生可靠的标签。
    本文对每个网络\mathcal{X}\mathcal{U}都应用了co-refinement。
    这里作者从f_\theta(1)的角度出发,进行了介绍。
    (1)对于给定的标记的数据x,首先计算\mathcal{X}中原始标记y和对应网络f_\theta(2)的预测之间的线性和,并使用sharpen来得出对应修正之后的\overline{y}
    w^{(2)}f_\theta(2)对应的置信值。
    (2)对于未标记集\mathcal{U},应用两个网络的预测集合来猜测数据样本u的伪标记\overline{q}如下:
    u_m是基于u的第m-th个弱数据增强(和原始样本较为类似)。
    通过co-refinement,可以得到原始MixMatch的代替数据,得到修正的(x, \overline{y}) \in \mathcal{X}^{(1)}(u, \overline{q}) \in \mathcal{U}^{(1)}。使用这些数据作为MixMatch的输入
    可以看出,这是从f_\theta(1)的角度出发,得到的损失函数。同理,可以得到关于f_\theta(2)的损失函数。
  • Co-refurbishing
    最后,我们在每个epoch结束时刷新噪声样本,以在整个训练过程中提供额外的clean样本。如果至少有一个网络对给定unclean样本u \in \mathcal{U}的置信度超过阈值\tau_2,则相应样本的标签用网络的预测p更新。更新标签之后的样本随后被加入到clean data集合\mathcal{X}中。
    整体算法如下所示:

对于co-refinement的过程而言,可以很显然的运用在多视图数据的场景之上,可以很好的综合不同视图的聚类结果,同时使用较高置信度的样本对其余视图进行调整。可以尝试一下该手法。较为难考虑的一点是,这势必要牵扯到无监督聚类和半监督聚类的结合,是否真的需要如此大动干戈。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,837评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,551评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,417评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,448评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,524评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,554评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,569评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,316评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,766评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,077评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,240评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,912评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,560评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,176评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,425评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,114评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,114评论 2 352

推荐阅读更多精彩内容