无监督学习算法

本文首发自公众号：RAIS，点击直接关注。

前言

本系列文章为《Deep Learning》读书笔记，可以参看原书一起阅读，效果更佳。

无监督学习算法

就是无监督的一种学习方法，太抽象，有一种定义（这种定义其实不够准确，无监督和监督之间界限模糊）是说如果训练集有标签的就是有监督学习，无标签的就是无监督，没有标签，意味着不知道结果。有监督学习算法可以知道一堆图片它们是狗的照片，无监督学习算法只能知道它们是一类，但这一类叫什么就不知道了。

无监督学习算法没有标签，因此训练的也往往是没有明确目标的，对于结果也可能不好说是好是坏，在本质上来说，无监督学习算法是一种概率统计的方法，在数据中可以发现一些潜在的结构。这么说还是不够清楚，举几个例子说明无监督学习方法有什么作用：

用户分类：马云说每天晚上有五十万的人会浏览淘宝，什么也不买，他也不知道为什么，那既然有如此大的流量，不能浪费，进行精准推荐，会不会效果很好呢？在庞大的用户群中，找到和你很相似的用户，也说不出来哪里相识，反正就是相似，他买过的东西你还没买过，推荐给你，你会不会就冲动了呢？

发现异常：对于网站来说，防止 DDOS 攻击就需要在巨大的请求中找到那些非法请求（广义上的非法，并非单纯指参数非法），进行丢弃不进行服务，这可能就需要无监督学习算法，找到那些和正常用户不一样的请求，也说不出来哪里不一样，反正就是不一样，直接抛弃请求，不进行服务，那攻击带来的影响就会降低一些。

表示

表示是深度学习的核心主题之一，一个经典的无监督学习任务是找到数据的最佳表示，去除那些无关紧要不影响大局或影响因子极小的因素，找到数据最核心最关键的简单表示，这里的简单表示包括低纬表示、稀疏表示和独立表示。

低纬表示：将 x 中的信息尽可能压缩在一个较小的表示中，通常会产生比原始的高维数据具有较小或较弱依赖关系的元素；
稀疏表示：将数据集嵌入到输入项大多数为零的表示中，通常会用于需要增加维数的情况，使得大部分为零的表示不会丢失很多信息；
独立表示：试图分开数据分布中变化的来源，使得表示的维度是相互独立的。

主成分分析

主成分分析（PAC）是经典的降维算法，是一种无监督学习。主成分顾名思义，主要的成分，与之相对应的就是非主要的成分。举个例子，矩阵中有些向量可以用其他的某些向量线性表示，线性相关，那这个向量有一点多余了，去除后不影响原来的空间，基于这样的思想，我们可以考虑将矩阵压缩，在减小矩阵维数的同时尽可能保留原来的信息。

对于方阵的特征分解，就是线性代数中的方法：

$X=QΛQ^{-1}$