论文阅读“Deep Fusion Clustering Network”

Tu W, Zhou S, Liu X, et al. Deep fusion clustering network[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(11): 9978-9987.

摘要导读

近年来，利用图神经网络GNN捕获结构信息并结合自编码器AE进行深度聚类的方式已经展现出强劲的趋势。但是现有做法仍然有一定的局限性：1）缺乏动态融合机制来选择性地整合和改善图结构和节点属性的信息，用于共识表示学习，2）未能从AE和GNN两边提取信息，以生成稳健的目标分布（即真实的软标签分配）。为了处理这些问题，本文提出了深度融合聚类网络（DFCN）。具体来说，提出了一种基于相互依赖学习的结构和属性信息融合(SAIF)模块，以明确合并由自编码器AE和图自编码器GAE学习的表示，用于共识表示学习。此外，还设计了一种可靠的目标分布生成措施和三重自监督策略，便于跨模态信息的开发。

Intro提炼

深度聚类方法中两个重要的因素：

优化目标（optimization objective）
特征提取的方式（the fashion of feature extraction）：现有做法，抽取几何结构信息然后将其与传统的属性信息融合用于表示学习。

关于GCN的引入：More recently, graph convolutional networks (GCNs), which aggregate the neighborhood information for better sample representation learning, have attracted the attention of many researchers.

方法浅析

本文提出的方法主要包含四个部分：自编码器AE，改进的图自编码器IGAE，融合模块和优化目标。

基础的AE和GCN的结构和SDCN类似，提出的方法主要是在信息融合模块进行了增强。在这个模块中，（1）AE和IGAE的decoder用于重建输入信息以学习共识潜在表示；（2）AE和IGAE之间的学习进行了充分的协商，构建了目标分布；（3）设计了一种自监督的三重联合学习策略。

符号说明
给定包含 $K$ 个类簇的无向图 $\mathcal{G}=\{\mathcal{V, E}\}$ ， $\mathcal{V}=\{v_1, v_2, \cdots, v_N\}$ 和 $E$ 分别是节点集合和边集合， $N$ 是样本数量。图的特征化属性矩阵 $X \in \mathbb{R}^{N \times d}$ 和原始的邻接矩阵 $A=(a_{ij})_{N \times N} \in \mathbb{R}^{N \times N}$ ， $d$ 是属性维度。对应的度矩阵为 $D=diag(d_1, d_2, \cdots, d_N) \in \mathbb{R}^{N \times N}$ ，根据度矩阵 $D$ 可以将原始的邻接矩阵正则化为 $\tilde{A} \in R^{N \times N}$ ：

其中， $I$ 表示每个 $\mathcal{V}$ 中的每个节点都是自环的。
Fusion-based Autoencoders

Input of the Decoder.
不同于传统的AE和GAE重构输入只包含自己的信息，提出的方法首先整合来自这两个来源的信息，以获得共识潜在表示。然后，以这种嵌入作为输入，AE和GAE的解码器重构了两个子网络的输入。
Improved Graph Autoencoder.
在现有的文献中，经典的自动编码器通常是对称的，而图卷积网络通常是不对称的。它们只要求潜在的表示形式来重构邻接信息，而忽略了基于结构的属性信息也可以被利用来提高网络的泛化能力。为了更好地利用邻接信息 $A$ 和属性信息 $X$ ，本文设计了一种改进的对称图自编码器(IGAE)，同时重构加权属性矩阵和邻接矩阵。其对应的编码层和解码层的操作分别如下：

其中 $W^{(l)}$ 和 $\hat{W}^{(h)}$ 分别是encoder的 $l$ 层和decoder的 $h$ 层对应的可学习参数。IGAE的目标为最小化混合损失函数：

在 $L_w$ 中， $\hat{Z}$ 是重建的加权属性矩阵。 $L_a$ 中， $\hat{A} \in \mathbb{R}^{N \times N}$ 是由具有网络的多层次表示的内积运算生成的重构邻接矩阵。

Structure and Attribute Information Fusion (SAIF)

为了充分的捕获图结构和节点属性信息，本文设计了一个SAIF模块。

该模块包含一个跨模态动态融合机制和一个三重是自监督策略。

Cross-modality Dynamic Fusion Mechanism
融合模块内的信息集成包括四个步骤：
（1）线性组合来自AE和IGAE的的潜在表示 $Z_{AE}$ 和 $Z_{IGAE}$ ：

其中， $\alpha$ 是一个可学习的参数，根据相应数据集的属性，有选择性地确定两个信息源的重要性。一般初始化为0.5，然后随梯度下降自适应的进行调节。
（2）使用类似图卷积的操作（即消息传递操作）处理组合的信息：

通过该操作，通过考虑数据内的局部结构来增强初始融合嵌入 $Z_I$ 。
（3）进一步，引入了一种自相关学习机制来挖掘样本间初步信息融合空间中的非局部关系。正则化的自相关矩阵中的每个元素计算如下：

使用 $S$ 为系数，将 $Z_L$ 和其结合作为样本的全局性信息 $Z_G=SZ_L$ 。
（4）最后使用跳跃连接鼓励信息在融合机制内顺利传递：

其中， $\beta$ 是一个缩放参数，在训练的过程中将其初始化为0，进行对应的学习。从技术上讲，跨模态动态融合机制从局部和全局的角度考虑了样本相关性。可以更加有效的学习潜在的共识表征。
Triplet Self-supervised Strategy
为了生成更可靠的聚类网络训练指导信息，这里使用了更加鲁棒的嵌入 $\tilde{Z} \in \mathbb{R}^{N \times d~'}$ 来生成辅助分布 $q_{ij}$ 和 $p_{ij}$ ：

除此之外，本文提出的聚类监督机制也保留了对AE和IGAE的嵌入表示的监督，即在计算 $q_{ij}$ 时，考虑了AE和IGAE子网的输出 $Z_{AE}$ 和 $Z_{IGAE}$ ，分别形成了软聚类分配分布 $Q'$ 和 $Q''$ 。
为了在统一的框架中训练整体的网络并提高模型中每个模块的表示能力，这里设计了一种三重聚类损失函数：

Joint Loss and Optimization
整体的学习目标包含来自AE和IGAE的重构损失和聚类分配损失：

与SDCN不同的是，所提出的DFCN用共识潜在表示重构了两个子网络的输入。 $\lambda$ 是一个预定义的超参数，它平衡了重建和聚类的重要性。其算法流程如下：

实验设置

Comparison with the State-of-the-art Methods（主实验）
一个用于放对比实验的大表格，下面添加分析
Ablation Studies （消融实验）
分别把模型中的各部分进行消融
子标题（1）Effectiveness of IGAE （2）Analysis of the SAIF Module（关键模块设计的消融）
子标题（3）Influence of Exploiting Both-source Information （不同信息对模型性能的影响）
Analysis of Hyper-parameter （关键超参数的讨论）
Visualization of Clustering Results （聚类结果的可视化展示）

大佬对于模型的描述写的很细节，而且对于操作的模块化很有灵性，尤其是对SAIF的设计，使用平凡的操作让整个融合模块同时学到了来自两个源的的信息（图结构和节点属性），并且通过引入自相关矩阵使得局部和全局信息进行自适应的组合，以获得更加鲁棒的聚类目标监督信息，从而使得三重自监督策略可以综合来自三个模块的嵌入表示。

论文阅读“Deep Fusion Clustering Network”

摘要导读

Intro提炼

方法浅析

实验设置

推荐阅读更多精彩内容