论文阅读“Graph Contrastive Clustering”

Zhong H, Wu J, Chen C, et al. Graph Contrastive Clustering[J]. arXiv preprint arXiv:2104.01429, 2021.

摘要翻译

最近,人们提出了一些对比学习方法来同时学习表征和聚类分配,取得了明显的改善。然而,这些方法并没有考虑到类别信息和聚类目标,因此学习到的表征并不是最优的聚类方法,其聚类性能可能会受到限制。为了解决这个问题,我们首先提出了一个新的图对比学习框架,然后将其应用于聚类任务,形成了 图对比聚类(Graph Constrastive Clustering, GCC)方法。基本的对比聚类只假设一个样本图像实例及其扩展应该具有相似的表示和聚类分配,与此不同的是,我们将实例的级别一致性提升为类簇级别一致性,并假设一个簇中的样本及其扩展都应该相似。具体来说,一方面,我们提出了基于图拉普拉斯的对比性损失,以 学习更多的鉴别性和有利于聚类的特征。另一方面,我们提出了一种新的基于图的对比性学习策略来学习更紧凑的聚类分配。这两种方法都包含了潜在的类别信息,以减少集群内的差异,并增加集群间的差异。在六个常用数据集上的实验表明,我们提出的方法优于目前最先进的方法。

先给出概念当前论文核心概念图:

Motivation of the proposed GCC

(a) 现有的基于对比学习的聚类方法主要集中于实例一致性,从而最大化自增强样本之间的相关性,并将所有其他样本视为负样本。这种基于实例的一致性,可能在选取负样本的时候出自同一类簇的,从而学习到的特征表示对聚类不太友好。
(b) 论文提出的GCC结合了类别信息,在实例和集群级别上执行对比学习,这可以更好地最小化集群内的方差,并最大化集群间的方差。更适合聚类任务。

相关工作的写法记录

该论文的related work被分为两段式写法,首先是介绍了deep clustering在各领域的工作,并在结尾处指出:这些方法取得了良好的效果,但它们忽略了聚类分配学习和表示学习之间的联系。相比之下,我们的方法考虑了它们的联系,同时学习特征表示和聚类分配。其次引入了contrastive learning,介绍了当前流行的对比学习方法后,提出问题虽然这些方法可以学习很好的特征表示,但如何将它们应用于聚类任务以提高性能仍然具有挑战性。

Graph Contrastive Clustering模型浅析
(1)问题形式化

给定来自K个类簇的N个图片样本I = \left\{I_1,I_2,...,I_N\right\}。目标是学习一个基于CNN网络的深度映射函数Φ,每个图像I_i都可以映射到(z_i,p_i),其中z_i是具有正则化的d维表示特征||z_i||_2=1p_i是满足\sum _{j=1}^K p_{ij}=1K维分配概率。因此,在聚类中,样本图像I_i最后所属的类簇即为l_i = {arg max}_ j(p_{ij} ), 1 ≤ j ≤ K.

(2)Graph Contrastive提出

给定无向图G及其度矩阵D,论文给出了正则化的对称图拉普拉斯定义L=I−D^{-1/2} AD^{-1/2}
易得,

根据临接矩阵A的性质,给定N个表示特征x=\left\{x_1,…,x_N\right\}对于单位L_2范数,GC的直觉是,如果A_{ij}>0x_i应该接近x_j,而如果A_{ij}=0x_i应该远离x_j。从图结构数据的观点出发,假设图可以被划分为几个社区,GC的直觉告诉我们,同一社区中特征表示的相似性应该比它在其他社区之间更大。即,有临接关系的样本之间的相似性比没有临接关系的样本相似性更大。

根据图结构中的这种特性,论文给出了两种类型的相似度度量:
社区内的总相似度

intra

社区间的总相似度

inter

其中,S(x_i, x_j )x_ix_j之间的相似性。
为了同时增加类簇内总相似度,降低类簇间总相似度,提高特征的可分性,使得学习到的特征表示与图结构一致。论文构造了L_{GC}如下:

Graph Contrastive 损失

最小化损失L_{GC}相当于最大化样本邻域中的对数似然。即最大化分子部分(社区内的总相似度),最小化分母部分(社区间的总相似度)。

(3)总体Graph Contrastive Clustering模型

通过将GC应用于表示学习和分配学习,引入了一种新的端到端深度聚类框架。

GCC
  • 图的构建
    由于深度学习模型通常在训练过程中发生波动,一个epoch的表示特征可能有很大的偏差。在图的构建之前利用移动平均来减少这种偏差。假设Φ_θ^{(t)}是模型,Z(t)=(z^{(t)}_1、···、z^{(t)}_N)=(Φ^{(t)}_θ(I_1)、···、Φ^{(t)}_θ(I_N))是第t个epoch的表示特征,是表示特征的移动平均可以定义为:
    moving average

    其中α是一个参数来权衡当前和过去的效果\overline{z}^{(0)}_i=z^{(0)}_i。由此,我们可以构建第t个epoch的KNN临接矩阵,
    第t个epoch的临接矩阵
    并计算L^{(t)}
  • 相似性函数
    使用的是高斯核函数计算相似度。
    similarity(1)
    其中,τ是一个表示方差或温度的参数。上式可写成∥x_i − x_j∥^2_2 = ∥x_i∥^2_2 + ∥xj∥^2_2 − 2x_i · x_j = 2 − 2x_i · x_j,由此
    similarity(2)
  • 图对比表示(Representation Graph Contrastive)损失
    假设I^{'}=\left\{I_1^{'},…,I_N^{'}\right\}是原始图像的随机变换,其对应特征为z^{'}=(z_1^{'},···,z_N^{'})。根据对比图的直觉,如果z_i^{'}z_j^{'}有边连接,它们应该是相似的,而如果它们无边邻接,它们应该不太相似。通过将原始样本表示x_i转换为z_i,上述Graph Contrastive 损失在RGC中的应用可以转换为:
    RGC Loss
  • 图对比聚类分配( Assignment Graph Contrastive)损失
    对于传统的基于对比学习的聚类,图像及其增强应该共享相似的聚类分配分布,即实例及其对应的增强在聚类中是一致的。它是合理的,但没有利用聚类信息。随着模型在训练过程中越来越好,图像和其邻居也应该具有高概率的相似的聚类分配分布。由此提出了图对比聚类分配学习。
    假设I^{'}=\left\{I_1^{'},…,I_N^{'}\right\}是原始图像的随机增强,\tilde{I}^{'}=\left\{\tilde{I}_1^{'},…,\tilde{I}_N^{'}\right\}满足\tilde{I}_i^{'}I_i根据图邻接矩阵A(t)选择的随机邻居的转换,I^{'}\tilde{I}^{'}的分配概率矩阵可以定义为从全体样本的角度看概率分配:
    增强实例和邻居实例的概率分配矩阵(1)
    然后从列的角度对上述分配矩阵进行重新定义从单个样本的角度看概率分配,即
    增强实例和邻居实例的概率分配矩阵(2)
    上述Graph Contrastive 损失在AGC中的应用可以转换为
    AGC Loss
  • 聚类正则损失
    在深度聚类中,很容易落入一个局部最优解决方案,将大多数样本分配到少数集群中。由此,论文增加了聚类正则损失:
    Cluster Regularization Loss
    关于H的表达将会在后续论文“Deep semantic clustering by partition confidence maximisation” 的阅读中阐述,如有需要请自行查看

完整的GCC框架驱动由三个损失函数构成:

Total Loss

训练过程如下:

Training Process

这里即引入了基于KNN的图对比学习,并且将实例一致性上升到聚类一致性,使得学习到的特征表示对聚类任务更加友好。并且在迭代过程中使用了移动平均的方式进行更新,使得整个学习过程完整可信。如何将其拓展到文本聚类或者多视图领域是需要思考的内容。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351