论文阅读“Structural Deep Clustering Network”

摘要翻译:

聚类是数据分析的一项基本任务。近年来,从深度学习方法中获得灵感的深度聚类获得了最先进的性能,并引起了广泛的关注。目前的深度聚类方法通常利用深度学习强大的表示能力来提高聚类结果,例如autoencoder,这表明学习一种有效的聚类表示是一个至关重要的要求。深度聚类方法的优点是从数据本身中提取有用的表示,而不是从数据的结构中提取有用的表示,这在表示学习中很少受到关注。基于图卷积网络(GCN)在图结构编码方面取得的巨大成功,我们提出了一种结构化深度聚类网络(SDCN),将结构信息整合到深度聚类中。具体来说,我们设计了一个传递算子,将自动编码器学习到的表示转换到相应的GCN层,并设计了一个双自监督机制来统一这两种不同的深层神经结构,引导整个模型的更新。通过这种方式,从低阶到高阶的多种数据结构自然地与自动编码器学习到的多种表示相结合。此外,我们从理论上分析了传递算子,即通过传递算子,GCN将自编码器特有的表示改进为高阶图正则化约束,而自编码器有助于缓解GCN中的过平滑问题。通过全面的实验,我们证明我们所提出的模型可以始终比最先进的技术表现得更好。

  • Despite the success of deep clustering, they usually focus on the characteristic of data itself, and thus seldom take the structure of data into account when learning the representation.
  • Notably, the importance of considering the relationship among data samples has been well recognized by previous literatures and results in data representation field. Such structure reveals the latent similarity among samples, and therefore provides a valuable guide on learning the representation.
  • In summary, the structural information plays a crucial role in data representation learning. However, it has seldom been applied for deep clustering.

论文关注点:在DEC的单视图深度聚类的模型中扩展了关于结构信息的捕获,并使用GCN结构来捕获。在相比于GAE的结构,关于GCN的部分并没有采用临接矩阵的重建来进行监督,而是在此基础上利用聚类的目标分布信息Q构造了另外的结构分布Z,以量化结构信息的监督。

模型描述

SDCN

图注:X\hat{X}分别是输入数据和重建数据。H^{(l)}Z^{(l)}分别是DNN和GCN模块第l层的输出。不同的颜色代表从DNN中学习到的不同的表征H^{(l)}。蓝色实线表示目标分布P是由分布Q计算出来的,两条红色虚线表示双重自我监督机制。目标分布P同时指导DNN模块和GCN模块的更新。

总述:首先根据原始数据构造一个KNN图。然后将原始数据X和KNN图分别输入到AE和GCN中。作者将AE的每一层与相应的GCN层连接起来,这样就可以通过传递操作符将特定于AE的表示集成到结构感知的表示中。同时,提出了一种双重自我监督机制来监督AE和GCN的训练过程。

模型浅析

  • KNN图
    假设我们有原始数据X\in {R^{N×d}},其中每一行X_i代表第i个样本,N为样本个数,d为维数。对于每个样本,首先找到它的前k个相似的邻居,并设置边将其与其邻居连接起来。
    样本的相似矩阵S\in {R^{N×N}}的计算方法有很多。作者列出了构建KNN图时针对连续数据和离散数据的两种方式:
  1. Heat Kernel。样本ij的相似度按:S_{ij}= e^{−∥X_i−X_j∥^2/ t}计算,其中t为热传导方程中的时间参数。用于连续数据,如图像。
  2. Dot-product。样本i与样本j的相似度计算公式为:S_{ij}= X^T_jX_i。对于离散数据,例如单词袋,使用点积相似度,这样相似性只与相同单词的数量相关。
    计算相似矩阵后,我们选择每个样本的前k个相似点作为其邻居,构造无向k近邻图。这样,我们就可以从非图数据中得到邻接矩阵A
    b:对于文本任务来讲,这里一改GCN中传统的利用词和文档作为节点的方式,使用最简单的KNN来构造样本点的临接矩阵,不仅使得模型的理解上更直观,同时也启发了后续构图的思路。作为想要学习结构信息的临接矩阵而言,是一个很好的出发点
  • DNN模块

关于书写自己模块的引入

  • As we mentioned before, learning an effective data representation is of great importance to deep clustering. There are several alternative unsupervised methods for different types of data to learn representations. For example, ...
  • In this paper, for the sake of generality, we employ the basic autoencoder to learn the representations of the raw data in order to accommodate(适应) for different kinds of data characteristics.

b:一般情况下在介绍AE结构时所说的层数,指的是出去输入层和重建层之外的,第一个隐藏层到Code层的层数

DNN模块采用的是具有L层的基础AE结构,这里将不进行赘述。

DNN 模块

  • GCN模块(使用GCN模块来传播DNN模块生成的表示)

为什么要引入该模块的写法

  • Autoencoder is able to learn the useful representations from the data itself, e.g. ..., while ignoring the relationship
    between samples. In the section, we will introduce how to use the GCN module to propagate these representations generated by the DNN module.
  • Once all the representations learned by DNN module are integrated into GCN, then the GCN-learnable representation
    will be able to accommodate for two different kinds of information, i.e., data itself and relationship between data.

step-:获得第L层的卷积操作输出结果

convolutional operation

对于每一层的结果的卷积操作是与图神经一致的,但是在输出的构造上,作者连接了DNN模块对应层的表示形式(will be propagated through the normailized adjacency matrix),如图中选择了平衡因子来组合来自DNN和GCN的信息。
step-:但对于第一层的输出只保留了来自原始X

first layer of the GCN module

step-:在关于结构信息分布的构造上,则是采用了多分类的softmax层获取。

last layer of the GCN module

结果Z_{ij}\in{Z}表示概率样本i属于聚类中心j,我们可以将Z视为概率分布。

  • 双重自监督模块
    相比于IDEC模型,在固有的loss函数中,论文又引入了L_{gcn},这部分的构造来源于结构分布,使用了与辅助分布Q相同的目标分布,使得二者有统一的目标。
    Total Loss

目标函数优点:
(1)与传统的多分类损失函数相比,KL散度以一种更加“温和”的方式更新整个模型(soft labels),防止数据表示受到严重干扰;
(2) GCN和DNN模块统一在同一个优化目标上,使其在训练过程中结果趋于一致。
因为DNN模块和GCN模块的目标是近似目标分布P,而这两个模块之间有很强的联系,所以称其为双重自我监督机制。


论文中使用GCN+不同层AE的表达以添加结构,实验结果验证了模型的有效性,并且给出了理论支持。整体实验很完整。对于样本间关系的构造上,给出了新的思路,并且开启了关于总体样本结构的进一步探索。
关于理论支持这一块没有看,待续。。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,875评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,569评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,475评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,459评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,537评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,563评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,580评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,326评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,773评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,086评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,252评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,921评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,566评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,190评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,435评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,129评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,125评论 2 352

推荐阅读更多精彩内容