利用奇异值分解SVD给大数据降维

大数据的理解

大数据定义
数据被定义为过于巨大的数据集合,以至于变得难以使用传统技术来处理。大数据的大体现在三个方面:

  • 样例比较大
    比如统计了10人的样本数据,比如有100万个图像数据。
  • 时间维度大
    就是可能我们采集的样本很少,但是每个样本所采集的时间非常就,从时间这个维度看,数据量也是巨大的。
  • 数据维度大
    就是一个应用跟踪了样例的多个方面。高纬度数据就是提供了许多特征(变量),经常事数以百计或千计的。这可能转变为一个很现实的问题,即使你观察的少数样例,但是处理太多的特征也会让大部分分析变得难以驾驭。

使用如此之多的维度进行工作的复杂性驱动了各种各样的数据技术的需求来过滤信息,让数据看起来能更好的解决问题。过滤器通过移除高纬度数据集中的冗余信息来降低维度。

我们可以把将为理解为对数据的信息压缩,类似于压缩10001000的图像到6464分辨率,同样也是能够理解图片的意思的。

理解奇异值分解SVD

在大数据降维的核心算法SVD,我们称之为奇异值分解。SVD的公式是:

M = U * s * Vh

这个公式的含义是,原始数据矩阵M被分解为三个矩阵的乘积。

U:包含有关行的信息
Vh: Vh包揽有关列的所有信息
s: 记录SVD过程

最关键的是要理解s所代表的意思,比如s所有元素的和事100,s的第一个值是99,这就意味99%的信息储存在了U和Vh的第一列中。因此你可以愉快的抛弃第一列之后的所有剩余列,而又不会丢失数据的重要信息,只丢失了1%的信息,对数据来说并不太重要。

举例说明

import numpy as np
M = np.array([[1, 3, 4], [2, 3, 5], [1, 2, 3], [5, 4, 6]])
print(M)
[[1 3 4]
 [2 3 5]
 [1 2 3]
 [5 4 6]]

这个例子中需要降维的数据M,包含4个样例,每个样例包括3个特征值。下面我们就使用linalg模块的svd函数,进行分解矩阵:

U, s, Vh = np.linalg.svd(M, full_matrices=False)
print(U.shape, s.shape, Vh.shape)
(4, 3) (3,) (3, 3)
print(s)
[12.26362747  2.11085464  0.38436189]

通过s里的值可以看出第一列包含了大部分信息(超过80%)。第二列有些值(大约14%),第三列则包含了参与的信息。

当然svd公式是可逆的,就是分解出来的这三个矩阵还能通过点乘还原原始的矩阵。注意,矩阵s实际上是对角矩阵,还原的时候要使用对角矩阵参与运算。

# s转换为对角矩阵
print(np.diag(s))
array([[12.26362747,  0.        ,  0.        ],
       [ 0.        ,  2.11085464,  0.        ],
       [ 0.        ,  0.        ,  0.38436189]])
back_M = np.dot(np.dot(U, np.diag(s)), Vh)
print(back_M)
[[1. 3. 4.]
 [2. 3. 5.]
 [1. 2. 3.]
 [5. 4. 6.]]

可以看出还原之后的back_M和之前的M矩阵是一样的。

如何利用SVD进行降维(压缩特征维度)

SVD输出的三个矩阵入手,想办法去除第三列的内容。U取U[:,:2],变成(4,2),s取s[:2],变成了(2,),Vh取Vh[:2,:],变成了(2,3)

back_M1 = np.dot(np.dot(U[:,:2],np.diag(s[:2])), Vh[:2,:])
print(np.round(back_M1,1))
[[1.  2.8 4.1]
 [2.  3.2 4.8]
 [1.  2.  3. ]
 [5.  3.9 6. ]]

可以看出即使丢失最后一列的数值,还原之后和过去相比有一些差别,但是并不是很大。也是就是说可以用更少的维度取保存过去的值。

到底哪里降维了呢?

看到这里你可能都有点疑惑,到底是哪里降维了呢?从过去的(4,3)矩阵,变成现在三个矩阵(4,3)(3,)(3,3),不但维度没有降,而且还增加一些数据。
假如说我们忽略最后一列的信息,变成三个矩阵(4,1),(1,),(1,3),从过去的4x3=12个数字,变成现在的4+1+3个数字,确实是降了。但是我们应该如何利用这三个矩阵参与机器学习中呢?

如何利用SVD降维的三个矩阵

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343

推荐阅读更多精彩内容