进阶理解非负矩阵分解(NMF)

前言

非负矩阵分解顾名思义:是一个矩阵分解,并且分解矩阵非负。看起来这句话给人的信息量不大,背后却能挖掘NMF为什么会被提出且广泛被运用的原因。

首先是NMF是一个矩阵分解,它和PCA(主成分分析)、ICA(独立成分分析)、SVD(奇异值分解)和VQ(矢量量化)等矩阵分解一样:在当前数据量庞大且巨大的时代,对数据的维数进行消减和高浓度压缩十分重要。

其次是为什么非负,在上述提到的矩阵分解方法中,原始的大矩阵V被近似分解为低维(秩)的V=WH形式。这些方法的共同特点是,因子W和H中的元素可为正或负,即使输入的初始矩阵元素是全正的,传统的秩削减算法也不能保证原始数据的非负性。在数学上,从计算的观点看,分解结果中存在负值是正确的,但负值元素在实际问题中往往是没有意义的。例如图像数据中不可能有负值的像素点;在文档统计中,统计个数也不可能是负值。

基本思想 

因此,NMF的基本思想就是:对于任意给定的一个非负矩阵V,找到两个非负矩阵W,H,使得一个非负的矩阵分解为左右两个非负矩阵的乘积。

数学上:                                                                    V_{m\times n} \approx W_{m\times k} \cdot H_{k\times n}

同时要求矩阵W,H非负。

如果你仅仅知道什么是NMF,到这里就有现成的工具包供你调用,你也能得到想要的结果(W,H)。但为什么会保证得到的结果一定是正的,并且怎么得到解都对我们理解NMF有着很大帮助。这也是工作学习一直值得提倡的:授之以鱼不如授之以渔。


数学模型与求解

既然我们的目的是为了找到两个非负矩阵使得它们的乘积等于原矩阵,那么就可以变成求解下面的最小化问题:

                                                                                        min  \vert \vert V-WH\vert \vert ^2

                                                                                          s.t. W,H\geq 0

这种形式的问题,我们首先要想到的梯度下降来求解。而基于梯度下降的方法,加减运算是无法保证非负的。但事实上,我们可以基于乘法运算来保证与梯度下降是等价的。

首先上述损失函数能够写成:

                                                                                I=\sum_{i=1}^m\sum_{j=1}^n[V_{ij}-(\sum_{k=1}^rW_{ik}\cdot  H_{kj}  ) ]^2

然后对其求梯度:

                                                                            \frac{\partial I}{\partial H_{kj} }=\sum_{i=1}^m\sum_{j=1}^n\{2(V_{ij}-(\sum_{k=1}^rW_{ik}\cdot  H_{kj})\cdot (-W_{ik}   ) \}^2

                                                                                          =-2[(W^TV )_{kj}-(W^TWH)_{kj}]

再依据梯度下降的思路:

(这个右上角的小撇怎么都打不出,只能自己截图了 --。)

令                                                                                            \alpha_{kj} =\frac{H_{kj}}{(W^TWH)_{kj}}

代入上述的迭代方程就能够得到H矩阵的更新形式。


W矩阵的求解过程和H是一样的,这里就不在重复敲公式了 - -。只给出最后的更新形式,有兴趣的自己推导

代码实现只要根据上述两个迭代公式从初始随机产生的H,W一步步迭代找到最优值就行。

这样,基于非负矩阵分解的原理和求解过程就了然于胸了~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。