Tu W, Zhou S, Liu X, et al. Deep Fusion Clustering Network[J]. arXiv preprint arXiv:2012.09600, 2020.
摘要翻译:
深度聚类是数据分析的基本而又具有挑战性的任务。近年来,将自编码器与图神经网络相结合,利用结构信息提高聚类性能的趋势越来越明显。然而,我们观察到,现有文献有很多需要提升的地方,如:1)缺乏一种动态融合机制来有选择地整合和改善图的结构和节点属性信息以进行共识表示学习; 2)未能利用双方提取的信息进行鲁棒目标分布生成(可以理解为DEC中的soft labels分配)。为了解决上述问题,论文提出了deep fusion clustering network (DFCN)。具体地说,该网络中,提出了一个基于相互依赖学习(interdependency)的结构与属性信息融合(SAIF)模块来显式地合并由自编码器和图自编码器学习的表示,以实现共识表示学习。同时,设计了可靠的目标分布生成措施和三重自我监督策略,以促进跨通道(跨模式)信息的开发。在六个基准数据集上的大量实验表明,所提出的DFCN的性能始终优于最新的深度聚类方法。
在Introduction中,提到了几何结构信息,推测指的是数据分布所隐含的形状、大小、图形的相对位置等空间区域关系以及空间形式的度量等信息。
文章切入点:1)现有方法缺乏跨通道(跨模式)的动态信息融合和处理机制。来自两个来源的信息只是简单地对齐或连接在一起,导致信息交互和合并不足。2)现有文献对目标分布的产生很少使用两种来源的信息,这使得网络训练中的指导较不全面和准确。
这种不足使得两个信息源之间的“协商”受阻,导致聚类性能不如意。
贡献点
- DFCN,设计了结构与属性信息融合(SAIF)模块,以更好地实现AE与GAE之间的信息交互。使用该模块,1)由于AE和GAE的解码器都使用共识潜在表示来重构输入,潜在嵌入的泛化能力得到了提高。2)通过整合AE和GAE之间的互补信息,提高了生成的目标分布的可靠性。3)三重自监督学习机制将AE、GAE和融合模块的学习集成在一个统一且健壮的系统中,从而进一步提高了聚类性能。
- 开发了对称图自动编码器,即改进的图自动编码器(IGAE),以进一步提高所提出方法的泛化能力。
- 实验结果敲好!
模型浅析
首先给出模型的对比图
改进为对两种结构信息都进行重构,构造融合模块打通两个来源渠道的抽取信息,三重自监督机制。
关于模型中符号的定义也分为约定俗成的输入部分(绿框),以及模型中生成的输出两部分。
Fusion-based Autoencoders
1)解码器的输出不再是相互独立的,而是通过整合来自AE和GAE的潜在表示共同作为两个子网的重建输入信息。
2)为了更好地利用邻接信息和属性信息,设计了一个对称的改进图形自动编码IGAE,同时重建节点属性信息和邻接结构信息。
优化目标:
Structure and Attribute Information Fusion
该模块SAIF是为了充分探索由IGAE和AE所学习到的图结构和节点属性特征。
four-step:
- 对AE和IGAE的嵌入特征的组合(Addition):
初始化为0.5,并可进行学习 - 使用类似图卷积的运算(Message Passing)来处理组合信息得到增强后的局部结构信息
- 利用自相关的学习机制,以利用样本之间的初步信息()融合空间中的非局部关系。
先计算自相关系数矩阵:
因此可以得到样本间的全局关系表示: - 采用跳跃连接来鼓励信息在融合机制中顺利通过:
将初始化为
Triplet Self-supervised Strategy
为了生成更可靠的聚类网络训练指导,因此我们使用了包含全局信息和局部信息的。并利用该信息生成软分配,并由此生成目标分布;同时在迭代生成的过程中增加对IGAE和AE模块软分配的约束。三种自监督的优化目标为:
在此公式中,AE,IGAE的软分配分布的总和以及融合表示与稳健的目标分布同时对齐。由于目标分布是在没有人工指导的情况下生成的,因此我们将损失函数称为三元组聚类损失及其相应的训练机制作为三元组自我监督策略。
Joint loss and Optimization
模型整体感受
总体来说,模型从重建SDCN中涉及到的两个特征学习模块出发,通过设计局部及全局信息学习策略,构成更全面的指导信息参与到整个聚类训练过程中,并由三重自监督机制同时进行优化。
实验部分结构
- Benchmark Datasets
- Experiment Setup(Training Procedure、Parameters Setting、Evaluation Metric)
- Comparison with the State-of-the-art Methods
- Ablation Studies(Effectiveness of IGAE、Analysis of the SAIF Module、Influence of Exploiting Both-source Information)
- Analysis of Hyper-parameter
- Visualization of Clustering Results