无监督学习算法

  • 本文首发自公众号:RAIS,点击直接关注。

前言

本系列文章为 《Deep Learning》 读书笔记,可以参看原书一起阅读,效果更佳。

无监督学习算法

就是无监督的一种学习方法,太抽象,有一种定义(这种定义其实不够准确,无监督和监督之间界限模糊)是说如果训练集有标签的就是有监督学习,无标签的就是无监督,没有标签,意味着不知道结果。有监督学习算法可以知道一堆图片它们是狗的照片,无监督学习算法只能知道它们是一类,但这一类叫什么就不知道了。

无监督学习算法没有标签,因此训练的也往往是没有明确目标的,对于结果也可能不好说是好是坏,在本质上来说,无监督学习算法是一种概率统计的方法,在数据中可以发现一些潜在的结构。这么说还是不够清楚,举几个例子说明无监督学习方法有什么作用:

用户分类:马云说每天晚上有五十万的人会浏览淘宝,什么也不买,他也不知道为什么,那既然有如此大的流量,不能浪费,进行精准推荐,会不会效果很好呢?在庞大的用户群中,找到和你很相似的用户,也说不出来哪里相识,反正就是相似,他买过的东西你还没买过,推荐给你,你会不会就冲动了呢?

发现异常:对于网站来说,防止 DDOS 攻击就需要在巨大的请求中找到那些非法请求(广义上的非法,并非单纯指参数非法),进行丢弃不进行服务,这可能就需要无监督学习算法,找到那些和正常用户不一样的请求,也说不出来哪里不一样,反正就是不一样,直接抛弃请求,不进行服务,那攻击带来的影响就会降低一些。

表示

表示是深度学习的核心主题之一,一个经典的无监督学习任务是找到数据的最佳表示,去除那些无关紧要不影响大局或影响因子极小的因素,找到数据最核心最关键的简单表示,这里的简单表示包括低纬表示、稀疏表示和独立表示。

  • 低纬表示:将 x 中的信息尽可能压缩在一个较小的表示中,通常会产生比原始的高维数据具有较小或较弱依赖关系的元素;
  • 稀疏表示:将数据集嵌入到输入项大多数为零的表示中,通常会用于需要增加维数的情况,使得大部分为零的表示不会丢失很多信息;
  • 独立表示:试图分开数据分布中变化的来源,使得表示的维度是相互独立的。

主成分分析

主成分分析(PAC)是经典的降维算法,是一种无监督学习。主成分顾名思义,主要的成分,与之相对应的就是非主要的成分。举个例子,矩阵中有些向量可以用其他的某些向量线性表示,线性相关,那这个向量有一点多余了,去除后不影响原来的空间,基于这样的思想,我们可以考虑将矩阵压缩,在减小矩阵维数的同时尽可能保留原来的信息。

对于方阵的特征分解,就是线性代数中的方法:

X=QΛQ^{-1}

其中 X 是 m*m 的矩阵,X 对应的协方差矩阵为:

Var(x)=\frac{1}{m-1}X^TX

PAC 通过线性变换找到一个 Var(x) 是对角矩阵的线性表示:z=W^TX

对于任意矩阵,奇异值分解(SVD)是最接近于特征分解的,同样这里也是:

X=U∑W^T

其中 X 是 m*n 的矩阵;U 是 m*m 的方阵,其中的正交向量称作左奇异向量;∑ 是 m*n 矩阵,除对角线元素外都是零,对角线上的元素称为奇异值;W 是 n*n 的矩阵,其中的正交向量称为右奇异向量。具体的求法步骤为:

  1. U:求 XX^T 的特征值和特征向量,再单位化;
  2. W:求 X^TX 的特征值和特征向量,再单位化;
  3. ∑:将 XX^T 的特征值求平方根。

以 W 作为特征向量基,可以得到原来的特征向量方程,U^TU=I, W^TW=I

X^TX=(U∑W^T)^TU∑W^T=W(∑)^{2}W^T

X 的方差:

Var(x)=\frac{1}{m-1}X^TX=\frac{1}{m-1}W(∑)^{2}W^T

z 的协方差满足对角的要求:

Var(z)=\frac{1}{m-1}Z^TZ=\frac{1}{m-1}(∑)^2

K-maeans 聚类(K-均值聚类)

聚类与分类是不同的,分类的类别是已知的,需要根据训练集进行训练和学习,找到不同的特征,再喂入测试集输出结果;聚类是事先不知道数据会被分成几类,通过聚类分析将数据分成几个群体。具体方法:

  1. 随机将找到 K 个特殊数据点;
  2. 其他的数据点根据距离分成 K 类;
  3. 然后在 K 类中每个类别中重新推选 K 个特殊的数据点;
  4. 如果新选定的数据点与之前选定的数据点距离较大,则根据新的数据点重复步骤 2 之后的步骤;
  5. 如果新的数据点和原来的数据点距离在一定阈值内,算法结束。

K-means 聚类优点是快,简单,对于数据点属于一团一团的数据效果很好,但是比较严重的问题是有可能根据初始值的不同分类效果不同且不好,比如汽车图片分类,有可能按照是卡车还是小轿车分类,也有可能是根据红色还是白色分类甚至有些是错误的,这一点需要注意,在不合适的地方此方法可能达不到目标。

总结

本文介绍了主成分分析和 K-means 聚类两种非监督学习方法。

  • 本文首发自公众号:RAIS,点击直接关注。由于各平台 Markdown 解析差异,有些公式显示效果不好,请到我 个人维护网站 查看。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,029评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,395评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,570评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,535评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,650评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,850评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,006评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,747评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,207评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,536评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,683评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,342评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,964评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,772评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,004评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,401评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,566评论 2 349

推荐阅读更多精彩内容