无监督学习-邻域嵌入方法|深度学习(李宏毅)(十八)

一、概述

流形学习(Manifold Learning)是指通过从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现降维或者数据可视化。拿地球举例来说就是地球的表面可以认为是一个二维平面被塞到了三维空间中,那么欧氏距离(Euclidean Distance)就只能在短距离内成立,在较远的距离就不再成立:

地球

再举一个例子,在下图中可以认为一个二维平面被扭曲放入一个三维空间中,在很小的距离内欧式举例是成立的:

短距离

而如果距离太远的话则可能欧氏距离就不成立,如下图所示,黑点到蓝点的欧氏距离比到红点的欧氏距离更小,但是从数据分布上来看黑点和红点更加相似一些,这时欧式距离就没有意义了:

远距离

对于上面的例子,流形学习要做的就是学习数据在低维空间的表示形式,通俗来说,就是将上图中的数据“展开”:

数据

这样的数据显然更容易用来进行聚类或者其他的监督学习方法。接下来的部分介绍几种流形学习的方法。

二、Locally Linear Embedding(LLE)

Locally Linear Embedding(LLE)是一种非线性降维算法,可以使降维后的数据保持比较好的原有的流形结构。

如下图,我们在高维空间中有许多样本,w_{ij}表示x^ix^j之间的关系,LLE中我们认为一个样本x^i可以由它的邻近的点x^jw_{ij}做weighted sum即\sum _{j}w_{ij}x^{j}来得到:

原数据

使用梯度下降法来进行求解所有的w_{ij},在进行求解是我们希望的是x^j能与\sum _{j}w_{ij}x^{j}越接近越好,因此损失函数如下:

\sum _{i}||x^{i}-\sum _{j}w_{ij}x^{j}||_{2}

接下来要做的是利用w_{ij}来求解降维后的结果z^i,假设z^i与其邻接的样本z^j之间也满足weighted sum的关系:

降维后的数据

同样使用梯度下降法来求解z^i,需要注意的是这里要固定w_{ij},把z^i看做未知来求解。使用的损失函数如下:

\sum _{i}||z^{i}-\sum _{j}w_{ij}z^{j}||_{2}

需要注意一点就是使用LLE这种方式进行降维不像PCA或者自编码器一类方法有一个明确的function,降维的结果完全是根据w_{ij}凭空生成的点。

在使用LLE进行降维时,选择邻域内的几个点是一个可以调整的超参数,选用过少或过多的点效果都不会太好,选择过多邻居的局限性在于这样会考虑进一些距离较远的点,而欧氏距离在远距离的效果不太好。下图展示了不同数量的邻近点的效果:

效果

三、Laplacian Eigenmaps

  1. 简介

拉普拉斯特征映射(Laplacian Eigenmaps)是一种基于图的降维算法,依赖于平滑性假设(Smoothness Assumption),其希望降维后的点(图中有边相连的点)在降维后的空间中能够相互接近,从而保持其原有的数据结构。

  1. 图的构建

具体地,假定在高维空间中有下图的数据点,则两个红色数据点之间的距离使用欧氏距离来度量的话是没有意义的,数据点之间在流形中的距离才可以表明其相似的程度。

数据

使用拉普拉斯特征映射的方法首先需要构建一张图,构建的方法就是将相似度高的点之间连一条边,可以设置一个阈值,每个点与其相似度达到阈值的点之间连接一条边,边的权重就是相似度,也可以将每个点与固定k个最相似的点连接起来。相似度可以采用径向基函数或者余弦相似度等等。

按照上述方法我们可以得到数据的邻接矩阵和一张图。邻接矩阵W_{n\times n}n是数据的总数),邻接矩阵的元素w_{i,j}就是数据点x^{i}x^{j}的相似度,即:

w_{i,j}=\left\{\begin{matrix} similarity,\; if\; connected\\ 0,\; otherwise \end{matrix}\right.

得到的图如下:

两个数据点在流形中的距离可以用图中的距离来近似:

距离
  1. 类比半监督学习

参考以下链接中平滑性假设基于图的方法这一部分:半监督学习|深度学习(李宏毅)(九)

在半监督学习平滑性假设基于图的方法中,通过给损失函数添加一个正则化项S可以利用无标签数据进行半监督学习,S用来评估标签的相关性,这个正则化项为:

S=\frac{1}{2}\sum _{i,j}w_{i,j}(y^{i}-y^{j})^{2}=y^{T}Ly

上式中yR+U维的向量,RU分别是有标签和无标签数据的数量,y=\begin{bmatrix} \cdots & y^{i} & \cdots & y^{j} & \cdots \end{bmatrix}^{T}

另外L=D-W,叫做图的拉普拉斯矩阵(Graph Laplacian)。W就是上述邻接矩阵,D是图的度矩阵,这是一个对角矩阵(d_{i,i}=\sum_{j=1}^{n}w_{i,j}):

图的度矩阵

这个正则项表明如果两个数据点相连,则w_{i,j}有值,那么y^iy^j趋近于相同;如果两个数据点不相连,则w_{i,j}0,那么y^iy^j是否相同就无所谓。

加上正则化项以后损失函数变为:

L=\sum _{x^{r}}C(y^{r},\hat{y}^{r})+\lambda S

  1. Laplacian Eigenmaps

Laplacian Eigenmaps的方法类似于上述平滑性假设基于图的半监督学习方法,我们期望将高维数据x降维成m维空间的数据z,首先要按上述方法构建一张图并且得到邻接矩阵W_{n\times n},因此设计损失函数如下:

S=\frac{1}{2}\sum _{i,j}w_{i,j}||z^{i}-z^{j}||_{2}=trace(Z^{T}LZ)

降维后的数据记作Z_{n\times m}z^im维的列向量,现做推导如下:

\sum _{i,j}w_{i,j}||z^{i}-z^{j}||_{2}=\sum_{i=1}^{n}\sum_{j=1}^{n}||z^{i}-z^{j}||_{2}w_{i,j}\\ =\sum_{i=1}^{n}\sum_{j=1}^{n}((z^{i})^{T}z^{i}-2(z^{i})^{T}z^{j}+(z^{j})^{T}z^{j})w_{i,j}\\ =\sum_{i=1}^{n}(\sum_{j=1}^{n}w_{i,j})(z^{i})^{T}z^{i}+\sum_{j=1}^{n}(\sum_{i=1}^{n}w_{i,j})(z^{j})^{T}z^{j}-2\sum_{i=1}^{n}\sum_{j=1}^{n}(z^{i})^{T}z^{j}w_{i,j}\\ =2\sum_{i=1}^{N}d_{i,i}(z^{i})^{T}z^{i}-2\sum_{i=1}^{n}\sum_{j=1}^{n}(z^{i})^{T}z^{j}w_{i,j}\\ =2trace(Z^{T}DZ)-2trace(Z^{T}WZ)\\ =2trace[Z^{T}(D-W)Z]\\ =2trace(Z^{T}LZ)

这里仅仅对S进行最小化是不可行的,必须进行一些限制。因为如果我们设置z^i=0,则S就可以始终为最小值0。如果降维的结果的维度为M,则我们需要限制span\left \{z^{1},z^{2},\cdots ,z^{N}\right \}=R^{M},这是为了防止已经被塞进高维空间的流形再被塞进更低维的空间中。

对降维后的数据再进行聚类就是谱聚类(Spectral Clustering)算法。

这里的拉普拉斯特征图的降维方法可以参考以下更详细的讲解:谱聚类|机器学习推导系列(二十)

四、T-distributed Stochastic Neighbor Embedding(-SNE)

  1. 上述方法的问题

在上面描述的邻域嵌入方法中存在的问题是,在重建低维空间中的表示时只考虑了让较高相似度的样本点要尽可能地接近,而没有考虑让低相似度的样本点要尽可能地远,这样会导致不同类别的样本点会集中在一起,也就是拥挤问题。下图展示了使用LLE处理MNIST和COIL-20数据集时的效果,COIL-20是一个图片数据集,里面的样本是某件物品(玩具车、杯子等)旋转不同角度拍下的照片:

LLE

可以看到不同类别的样本被挤到了一起,这就是上述问题导致的结果。

  1. t-SNE

假设需要将数据x降维成z,t-SNE的做法首先需要计算每一个样本点对其他样本点的归一化的相似度,这里归一化的目的是为了保证P和下面的Q都是概率分布,从而能够应用KL散度,计算方法如下:

P(x^{j}|x^{i})=\frac{S(x^{i},x^{j})}{\sum _{k\neq i}S(x^{i},x^{k})}

对降维后的数据也需要计算每一个样本点对其他样本点的归一化的相似度,计算方法如下:

Q(z^{j}|z^{i})=\frac{S^{'}(z^{i},z^{j})}{\sum _{k\neq i}S^{'}(z^{i},z^{k})}

我们的目标就是让这两个分布越接近越好,两个分布接近程度的度量应使用KL散度,因此优化的目标函数为:

L=\sum _{i}KL(P(*|x^{i})||Q(*|z^{i}))=\sum _{i}\sum _{j}P(x^{j}|x^{i})log\frac{P(x^{j}|x^{i})}{Q(z^{j}|z^{i})}

在求解时使用梯度下降对z微分即可。需要说明的是t-SNE是对所有的数据进行计算相似度,如果维度过高则会需要巨大的计算量,因此通常的做法是先使用PCA等方法进行降维然后再使用t-SNE继续降维,比如先使用PCA降到50维,再使用t-SNE继降到2维。

同时需要说明的是t-SNE降维后,如果一个新的数据进来,我们无法获得该数据的降维表示,因此t-SNE不适用于train-test的模式,这种方法通常用于数据的可视化。

  1. 相似度的度量

对于x的相似度的度量选用径向基函数(公式省略了\sigma):

S(x^{i},x^{j})=exp(-||x^{i}-x^{j}||_{2}^{2})

t-SNE是从SNE算法上改进而来,对于降维后的数据SNE选用径向基函数:

S^{'}(z^{i},z^{j})=exp(-||z^{i}-z^{j}||_{2}^{2})

而t-SNE选用t分布:

S^{'}(z^{i},z^{j})=\frac{1}{1+||z^{i}-z^{j}||_{2}^{2}}

选用上述相似度度量也就可以避免拥挤问题,原因使用下面的图来说明。在下图中横轴表示两个样本点的距离,纵轴表示概率分布。在优化时我们会让原来的数据的概率与降维后的数据的概率相等,可见如果原来的数据中的两个样本点距离很近时,在降维后的数据中距离也会很近,而如果原来的数据中的两个样本点距离很远,则在降维后的数据中其距离会被拉伸地更远:

拥挤问题
  1. 效果

下图展示了t-SNE在MNIST和COIL-20数据集上的效果:

效果

可以看到t-SNE取得了一个比较直观的可视化效果,不同类别的样本被区分地很明显。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,080评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,422评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,630评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,554评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,662评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,856评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,014评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,752评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,212评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,541评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,687评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,347评论 4 331
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,973评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,777评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,006评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,406评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,576评论 2 349

推荐阅读更多精彩内容