论文阅读“Deep autoencoding gaussian mixture model for unsupervised anomaly detection”

Zong B, Song Q, Min M R, et al. Deep autoencoding gaussian mixture model for unsupervised anomaly detection[C]//International conference on learning representations. 2018.

摘要导读

对多维或高维数据的无监督异常检测在基础机器学习研究和工业应用中都具有重要意义,其中密度估计是一个这些算法的核心。虽然以往基于降维和密度估计的方法取得了富有成效的进展,但主要受限于优化不一致的解耦模型的学习 的目标使得其不能在低维空间中保存关键信息。本文提出了一种用于无监督异常检测的深度自编码高斯混合模型(DAGMM)。该模型利用一个深度自动编码器来生成一个低维表示和每个输入数据点的重构误差,进一步将这些特殊输入高斯混合模型(GMM)。DAGMM没有使用解耦的两阶段训练和标准的期望最大化(EM)算法,而是联合优化了深度自动编码器和混合模型模拟器的参数,利用一个单独的估计网络以端到端的方式来促进混合模型的参数学习。这种联合优化很好地平衡了自编码重构、潜在表示的密度估计和正则化,有助于自动编码器摆脱较低吸引力的局部选择,进一步减少了重建误差,避免了预训练的需要。

模型浅析

深度自编码高斯混合模型(DAGMM)主要由压缩网络和估计网络两大部分组成。DAGMM的工作原理如下: (1)压缩网络通过深度自动编码器对输入样本进行降维,从降维的空间和重构误差特征中准备它们的低维表示,并将表示输入后续估计网络;(2)估计网络利用输入,在高斯混合模型(GMM)的框架内预测它们的似然/能量。
下面分开介绍两个模型主体以及模型的联合优化目标。

  • 压缩网络
    压缩网络提供的低维表示包含两个特征来源: (1)由深度自动编码器学习到的简化的低维表示;和(2)由重建误差得到的特征。给定一个样本x,压缩网络计算其低维表示z如下:
    其中,z_c是由深度自动编码器学习到的简化的低维表示,z_r包括由重构误差得到的特征,\theta_e\theta_d是深度自动编码器的参数,x'x的重构,h(\cdot)表示编码函数,g(\cdot)表示解码函数,f(\cdot)表示计算重构误差特征的函数。具体来说,z_r可以是多维的也可以是一维的,例如可以考虑多个距离指标,如绝对欧氏距离、相对欧氏距离、余弦相似度等。最后,压缩网络将z提供给后续的估计网络。

这里值的注意的是,一般情况下,我们都是采用重构与输入之间的误差用于网络的参数优化。这里作者在保留原始MSE损失之外,将多个距离指标得到的重构误差作为特征用于后续GMM模型的参数估计过程中。在之后的实验中可以验证一下是不是对所有的后续估计都有效。

  • 估计网络
    给定输入样本的低维表示z,估计网络在GMM框架下进行密度估计。
    混合成分分布\phi、混合均值\mu和混合协方差\Sigma未知的训练阶段,估计网络GMM并非使用类似于EM的交替算法对参数进行估计,而是采用了评估似然的方式。具体来说,该估计网络通过利用多层神经网络来预测每个样本的混合隶属度来实现这一点。
    给定低维表示z和一个整数K作为混合成分的数量,估计网络进行隶属度预测如下:{\bf{p}}=MLP({\bf z}, \theta_m),\hat{\gamma}=softmax(\bf{p})。其中,\hat{\gamma}是软混合成分隶属度预测的K维向量,\bf{p}是由\theta_m参数化的多层网络的输出。
    给定一批N个样本及其隶属度预测,{\forall} ~~1\leq k \leq K,利用隶属度\hat{\gamma}可以进一步估计GMM中的参数如下:
    其中,\hat{\gamma}_i为低维表示z_i的隶属度预测,\hat{\phi}_k\hat{\mu}_k\hat{\Sigma}_k分别为GMM中分量k的混合概率、均值、协方差。
    根据估计的参数,可以进一步推断出样本的似然:
    对于异常点检测任务,在使用学习到的GMM参数的测试阶段,可以直接估计样本似然,并通过预先选择的阈值预测高能量样本为异常。
  • 联合目标函数
    给定一个N个样本的数据集,指导DAGMM训练的目标函数构造如下:

    (1) L(x_i, x'_i)是表征压缩网络中由深度自编码器引起的重构误差的损失函数。直观地说,如果压缩网络能使重构误差较低,那么低维表示可以更好地保存输入样本的关键信息。因此,对于压缩网络来说,通常期望一个较低的重构误差。这里一般使用L2范数。
    (2)E(z_i)建模了可以观察到输入样本的概率。通过最小化样本能量,寻找压缩和估计网络的最佳组合,以便最大化输入样本的概率。
    (3)DAGMM也有像在GMM中一样的奇异性问题:当协方差矩阵中的对角项退化为0时,就会触发平凡解。因此,目标函数中的最后一项是针对GMM的正则项。具体来说,通过惩罚对角线上的较小值:
    其中,d为压缩网络提供的低维表示中的维数。

论文中作者还通过理论证明,可以将DAGMM的隶属度预测任务引入到神经变分推理的框架中。具体细节请移步原文。


对于神经网络和隶属度的结合很自然,同时还引入了误差特征实现对GMM参数的估计,改变了原始EM算法的交替式优化。对似然的构造使得整个模型在保留原本样本结构的同时实现了对GMM参数的估计从而实现对异常点的检测。模型的设计上形同IDEC,在特征层面,比IDEC多引入了误差特征;在任务对比上,对GMM参数的估计和似然函数的设计,可以类比于深度聚类层在聚类中的作用,实现了对参数的估计,最小化似然也可以达到同时优化压缩网络的作用。非常之巧妙。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,695评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,569评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,130评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,648评论 1 297
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,655评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,268评论 1 309
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,835评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,740评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,286评论 1 318
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,375评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,505评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,185评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,873评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,357评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,466评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,921评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,515评论 2 359

推荐阅读更多精彩内容