论文阅读“Dissimilarity Mixture Autoencoder for Deep Clustering”

Lara J S, González F A. Dissimilarity Mixture Autoencoder for Deep Clustering[J]. arXiv preprint arXiv:2006.08177, 2020.

摘要翻译

差异混合自编码(DMAE)是一种基于特征聚类的神经网络模型，它融合了灵活的dissimilarity function，可以集成到任何一种深度学习体系结构中。它在内部表示了一个差异混合模型(DMM)，通过将概率重新解释为神经网络表示，将K-Means、GMM或Bregman聚类等经典方法扩展到任何凸和可微的dissimilarity function。DMAE可以与深度学习架构集成到端到端模型中，允许同时学习聚类分配和神经网络参数。通过对图像和文本聚类基准数据集进行实验，结果表明DMAE在无监督分类准确率和标准化互信息对比中具有较强的竞争力。

Intro介绍

Unsupervised learning (UL) aims to automatically extract meaningful patterns from unlabeled data, it covers different tasks like clustering, density estimation, dimensionality reduction, anomaly detection, data generation, among others.

Remarkable examples for UL:(1) autoencoders (AE); (2)generative models (GAN and VAE); (3) deep clustering methods (similarity-based or feature-based)
作者提出的DMAE，是一种 feature-based聚类的深度神经网络模型，同时它包含dissimilarity function，保留了similarity-based聚类的灵活性。DMAE在内部以编码器-解码器体系结构表示了指数分布的混合，允许使用基于梯度的优化进行参数估计。DMAE将经典的概率概念重新解释为神经网络组件，允许集成到深度学习架构中。主要贡献点：

DMAE：一种基于样本和混合成分之间的可微凸差异函数的深度聚类模型，可应用于深度嵌入空间。
该模型是一个使用概率神经网络表示的编码器-解码器网络，可以与其他深度学习组件一起使用。允许通过基于梯度的优化、在线学习和迁移学习等现代策略进行可扩展的参数估计。
由于DMAE的公式是基于差异的函数，所以它可以拟合来自不同概率分布的数据，如圆形、角形、概率空间等，同时保持参数的可解释性。同样地，如果问题需要更高的复杂性，所提出的模型可以用深度学习组件进行扩展，在可解释性和性能之间进行权衡。

模型浅析（Dissimilarity Mixture Autoencoder）

DMAE由三个主要成分组成。首先，�提出了一个差异混合模型(DMM)，将Bregman聚类等经典方法扩展到任何凸和可微的差异函数；其次，提出了一种期望最大化的自编码器作为DMM的学习过程；第三，利用无监督表示学习对模型进行了深度聚类扩展。

Dissimilarity Mixture Model

Mixture Model是一种聚类的概率方法，它允许通过一组 $K$ 个分布的组合来表示样本的密度。在本工作中，属于类簇 $k$ 的数据点 $x_i∈R^m$ 的似然 $P(x_i|z_{ik}=1)$ 被建模为如下的指数分布：

其中

z_{ik}

是一个binary类型的潜在变量，指示样本

x_i

是否属于类簇

k

；

b_k

是一个唯一确定的值，将概率标准化为一个有效的概率密度；

α

是一个控制可能性指数行为的常数；

d(·)

是一个差异度量函数，用于度量

x_i

和与当前类簇

k

Autoencoder for Expectation-Maximization

EM是一种迭代更新模型参数直到收敛的算法，它需要在任何 $t$ 次迭代中确定E步和M步的一般表达式。
E-step：计算q^(t)

对于具有离散的潜在变量数的模型，所求分布等于后验分布，即可以由公式(2)计算得到。其中

X∈R^{N×m}

是一个矩阵，其中每一行大小为

m

的特征向量

x_i

共计

N

个样本，

Z∈R^{N×K}

是一个矩阵，其中每一行代表一个样本

x_i

对应的潜在分量

z_i

。

M-step：通过最大化分布q^(t)下的完全对数似然值的期望值来更新参数

对于包含

N

个样本和

K

个分量的DMM，其完全似然

P(X, Z; Θ, Φ)

采用如下计算：

其完全对数似然（the complete log-likelihood）为：

考虑到

z_{ik}

分量是binary随机变量以及关于q(t)的定义(见公式(4))，条件期望

E_{q^{(t)}}[z_{ik}]

等于后验分布

P(z_{ik}=1|x_i)

。所以有：完全对数似然值的期望

L=E_{q^{(t)}}[log(P(X, Z; Θ,Φ))]

计算如下：

由于不相似函数

d

必须是凸的，利用琴森不等式：

琴生不等式（Jensen's inequality）以丹麦数学家约翰·琴生（Johan Jensen）命名。它给出积分的凸函数值和凸函数的积分值间的关系。琴生不等式有以下推论：过一个下凸函数上任意两点所作割线一定在这两点间的函数图象的上方，即：

Jensen's inequality 一般形式

我们可以得到如下的表达：

利用公式(9)和完全对数似然必须最大化的要求，可以确定出一个下界即：

其中，样本 $x_i$ 的参数 $\tildeθ_i$ 和 $\tildeϕ_i$ 是使用softmax输出作为权值的所有集群参数的凸组合。

损失函数基于完全对数似然值和软分配参数的下界，类似于其他聚类方法中通常使用的失真度量。表示如下：

由此，差异混合自编码器(DMAE)是将EM过程重新解释为一个具有对应于DMM参数的共享权重的编码器-解码器网络。在DMAE中，执行一个编码过程来计算 soft-assignments 或后验概率 $P(z_i|x_i)$ ，这等同于E步；同样，重构 $\tildeθ_i$ 和 $\tildeϕ_i$ 被计算为潜在表示的线性解码，并最小化重构误差或失真度量 $L$ (公式(12))来更新模型的参数，这相当于M步。
DMAE最重要的特性之一是，它由可微操作组成，因此可以通过基于梯度的优化将损失 $L$ 最小化。像批处理学习和在线学习等方法可以使用，因为DMM假设是样本间独立同分布(i.i.d)，允许其应用于具有控制内存消耗的大型数据集。此外，还可以利用无监督表示学习，通过利用反向传播和其他深度学习组件的外部梯度来增强DMAE。

Unsupervised Representation Learning

DMAE使用一个深度自编码器进行无监督表示学习，并将DMM合并到潜在空间中进行聚类。完整的架构可分为四个主要组件：deep encoder, dissimilarity mixture encoder, dissimilarity mixture decoder, and deep decoder.

Deep Encoder
该组件将输入数据转换为一个更简单的表示或潜在空间。它定义了一个从原始输入空间到维度为 $R$ 的空间 $\mathcal{H}$ 的映射 $\mathcal{X→H}$ 。这是通过在训练过程中学习的几个非线性变换来实现的。具体来说，它定义了一个函数 $f_1(·)$ ，该函数使用一组权值 $W_e$ 将输入样本 $x_i∈R^m$ 转换为潜在表示 $h_i∈R^R$ (R是潜在维度的大小)。

Dissimilarity Mixture Encoder (DM-Encoder)
该组件将潜在表示 $h_i$ ，软分配到 $K$ 个类簇中。它定义了从空间 $\mathcal{H}$ 到维度为 $K$ 的潜在空间 $\mathcal{S}$ 的映射 $\mathcal{H→S}$ 。该表示等价于公式(2)中所示的DMM的赋值 $P(z_{ik}=1|x_i)$ 和在均匀分布 $(α→0)$ 和稀疏空间 $(α→∞)$ 之间发生变化。它定义了聚类参数 $Θ$ 和 $Φ$ ，并需要一个成对差异函数 $d_p(·)$ 来计算差异向量 $d_i∈R^K$ ，这样 $d_i$ 中的每个值就表示 $h_i$ 和所有集群参数 $θ_k∈Θ$ 之间的差异性 $d(·)$ 。

因此，软分配 $s∈R^K$ 是通过softmax激活函数确定的，它使用软最大逆温度 $α$ 来控制稀疏性和偏差向量(重参数混合系数) $Φ∈R^K$ 。
Dissimilarity Mixture Decoder (DM-Decoder)
该组件用于计算类簇参数 $\tildeθ_i$ 和 $\tildeϕ_i$ ，定义了从稀疏空间 $\mathcal{S}$ 到重建参数的潜在空间 $\mathcal{\tildeΘ}$ 的映射 $\mathcal{S→\tilde Θ}$ 。这是由所有类簇的参数 $Θ$ 和 $Φ$ 的凸组合实现的，如公式(11)。如果该 $Θ$ 可以构建成一个矩阵 $Θ∈R^{K×m}$ ，重建就等价于如下的矩阵乘法：
Deep Decoder
正常的Decoder组件，意在学习从重建参数空间到重建输入空间的映射。它定义了一个函数 $f_2(·)$ ，该函数使用一组权值 $W_d$ 将输入样本 $\theta_i∈$ 转换为原始重建表示 $\tilde x_i$ 如下：

整体模型通过优化组合Loss函数进行学习。

Total loss

论文用了很巧妙的转化思想，将差异融合模型DMM融入到神经网络的学习中；利用将EM算法构建为编码和解码架构，使得概率顺理成章的成为了神经网络的表示。值得学习！

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,293评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,604评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,958评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,729评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,719评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,630评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,000评论 3赞 397
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,665评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,909评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,646评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,726评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,400评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,986评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,959评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,197评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,996评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,481评论 2赞 342

论文阅读“Dissimilarity Mixture Autoencoder for Deep Clustering”

论文阅读“Dissimilarity Mixture Autoencoder for Deep Clustering”

摘要翻译

Intro介绍

相关工作

模型浅析（Dissimilarity Mixture Autoencoder）

Dissimilarity Mixture Model

Autoencoder for Expectation-Maximization

Unsupervised Representation Learning

推荐阅读更多精彩内容