论文阅读“Deep Fusion Clustering Network”

Tu W, Zhou S, Liu X, et al. Deep fusion clustering network[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(11): 9978-9987.

摘要导读

近年来,利用图神经网络GNN捕获结构信息并结合自编码器AE进行深度聚类的方式已经展现出强劲的趋势。但是现有做法仍然有一定的局限性:1)缺乏动态融合机制来选择性地整合和改善图结构和节点属性的信息,用于共识表示学习,2)未能从AE和GNN两边提取信息,以生成稳健的目标分布(即真实的软标签分配)。为了处理这些问题,本文提出了深度融合聚类网络(DFCN)。具体来说,提出了一种基于相互依赖学习的结构和属性信息融合(SAIF)模块,以明确合并由自编码器AE和图自编码器GAE学习的表示,用于共识表示学习。此外,还设计了一种可靠的目标分布生成措施和三重自监督策略,便于跨模态信息的开发。

Intro提炼

深度聚类方法中两个重要的因素:

  • 优化目标(optimization objective)
  • 特征提取的方式(the fashion of feature extraction):现有做法,抽取几何结构信息然后将其与传统的属性信息融合用于表示学习。

关于GCN的引入:More recently, graph convolutional networks (GCNs), which aggregate the neighborhood information for better sample representation learning, have attracted the attention of many researchers.

方法浅析

本文提出的方法主要包含四个部分:自编码器AE,改进的图自编码器IGAE,融合模块和优化目标。

基础的AE和GCN的结构和SDCN类似,提出的方法主要是在信息融合模块进行了增强。在这个模块中,(1)AE和IGAE的decoder用于重建输入信息以学习共识潜在表示;(2)AE和IGAE之间的学习进行了充分的协商,构建了目标分布;(3)设计了一种自监督的三重联合学习策略。

  • 符号说明
    给定包含K个类簇的无向图\mathcal{G}=\{\mathcal{V, E}\}\mathcal{V}=\{v_1, v_2, \cdots, v_N\}E分别是节点集合和边集合,N是样本数量。图的特征化属性矩阵X \in \mathbb{R}^{N \times d}和原始的邻接矩阵A=(a_{ij})_{N \times N} \in \mathbb{R}^{N \times N}d是属性维度。对应的度矩阵为D=diag(d_1, d_2, \cdots, d_N) \in \mathbb{R}^{N \times N},根据度矩阵D可以将原始的邻接矩阵正则化为\tilde{A} \in R^{N \times N}

    其中,I表示每个\mathcal{V}中的每个节点都是自环的。

  • Fusion-based Autoencoders

  1. Input of the Decoder.
    不同于传统的AE和GAE重构输入只包含自己的信息,提出的方法首先整合来自这两个来源的信息,以获得共识潜在表示。然后,以 这种嵌入作为输入,AE和GAE的解码器重构了两个子网络的输入。
  2. Improved Graph Autoencoder.
    在现有的文献中,经典的自动编码器通常是对称的,而图卷积网络通常是不对称的。它们只要求潜在的表示形式来重构邻接信息,而忽略了基于结构的属性信息也可以被利用来提高网络的泛化能力。为了更好地利用邻接信息A和属性信息X,本文设计了一种改进的对称图自编码器(IGAE),同时重构加权属性矩阵和邻接矩阵。其对应的编码层和解码层的操作分别如下:
    其中W^{(l)}\hat{W}^{(h)}分别是encoder的l层和decoder的h层对应的可学习参数。IGAE的目标为最小化混合损失函数:
    L_w中,\hat{Z}是重建的加权属性矩阵。L_a中,\hat{A} \in \mathbb{R}^{N \times N}是由具有网络的多层次表示的内积运算生成的重构邻接矩阵。
  • Structure and Attribute Information Fusion (SAIF)

    为了充分的捕获图结构和节点属性信息,本文设计了一个SAIF模块。
    该模块包含一个跨模态动态融合机制和一个三重是自监督策略。
  1. Cross-modality Dynamic Fusion Mechanism
    融合模块内的信息集成包括四个步骤:
    (1)线性组合来自AE和IGAE的的潜在表示Z_{AE}Z_{IGAE}
    其中,\alpha是一个可学习的参数,根据相应数据集的属性,有选择性地确定两个信息源的重要性。一般初始化为0.5,然后随梯度下降自适应的进行调节。
    (2)使用类似图卷积的操作(即消息传递操作)处理组合的信息:
    通过该操作,通过考虑数据内的局部结构来增强初始融合嵌入Z_I
    (3)进一步,引入了一种自相关学习机制来挖掘样本间初步信息融合空间中的非局部关系。正则化的自相关矩阵中的每个元素计算如下:
    使用S为系数,将Z_L和其结合作为样本的全局性信息Z_G=SZ_L
    (4)最后使用跳跃连接鼓励信息在融合机制内顺利传递:
    其中,\beta是一个缩放参数,在训练的过程中将其初始化为0,进行对应的学习。从技术上讲,跨模态动态融合机制从局部和全局的角度考虑了样本相关性。可以更加有效的学习潜在的共识表征。
  2. Triplet Self-supervised Strategy
    为了生成更可靠的聚类网络训练指导信息,这里使用了更加鲁棒的嵌入\tilde{Z} \in \mathbb{R}^{N \times d~'}来生成辅助分布q_{ij}p_{ij}
    除此之外,本文提出的聚类监督机制也保留了对AE和IGAE的嵌入表示的监督,即在计算q_{ij}时,考虑了AE和IGAE子网的输出Z_{AE}Z_{IGAE},分别形成了软聚类分配分布Q'Q''
    为了在统一的框架中训练整体的网络并提高模型中每个模块的表示能力,这里设计了一种三重聚类损失函数:
  • Joint Loss and Optimization
    整体的学习目标包含来自AE和IGAE的重构损失和聚类分配损失:
    与SDCN不同的是,所提出的DFCN用共识潜在表示重构了两个子网络的输入。\lambda是一个预定义的超参数,它平衡了重建和聚类的重要性。其算法流程如下:
实验设置
  1. Comparison with the State-of-the-art Methods(主实验)
    一个用于放对比实验的大表格,下面添加分析
  2. Ablation Studies (消融实验)
    分别把模型中的各部分进行消融
    子标题(1)Effectiveness of IGAE (2)Analysis of the SAIF Module(关键模块设计的消融)
    子标题(3)Influence of Exploiting Both-source Information (不同信息对模型性能的影响)
  3. Analysis of Hyper-parameter (关键超参数的讨论)
  4. Visualization of Clustering Results (聚类结果的可视化展示)

大佬对于模型的描述写的很细节,而且对于操作的模块化很有灵性,尤其是对SAIF的设计,使用平凡的操作让整个融合模块同时学到了来自两个源的的信息(图结构和节点属性),并且通过引入自相关矩阵使得局部和全局信息进行自适应的组合,以获得更加鲁棒的聚类目标监督信息,从而使得三重自监督策略可以综合来自三个模块的嵌入表示。


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,837评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,551评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,417评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,448评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,524评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,554评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,569评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,316评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,766评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,077评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,240评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,912评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,560评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,176评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,425评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,114评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,114评论 2 352

推荐阅读更多精彩内容