15.1 问题的动机
接下来,我将介绍异常检测(Anomaly detection)问题。。这是机器学习算法的一个常见应用。这种算法的一个有趣之处在于:它虽然主要用于非监督学习问题,但从某些角度看,它又类似于一些监督学习问题。
接下来,我会通过一些例子来讲述什么是异常检测!
假想你是一个飞机引擎制造商,当你生产的飞机引擎从生产线上流出时,你需要进行QA(质量控制测试),而作为这个测试的一部分,你测量了飞机引擎的一些特征变量,比如引擎运转时产生的热量,或者引擎的振动等等。
这样一来,我们就有一个数据集,从到,如果你生产了个引擎的话,你将这些数据绘制成图表,看起来就是这个样子:
这里的每个点、每个叉,都是你的无标签数据。这样,异常检测问题可以定义如下:我们假设后来有一天,你有一个新的飞机引擎从生产线上流出,而你的新飞机引擎有特征变量。所谓的异常检测问题就是:我们希望知道这个新的飞机引擎是否有某种异常,或者说,我们希望判断这个引擎是否需要进一步测试。因为,如果它看起来像一个正常的引擎,那么我们可以直接将它运送到客户那里,而不需要进一步的测试。
给定数据集,我们假使数据集是正常的,我们希望知道新的数据是不是异常的,即这个测试数据不属于该组数据的几率如何。我们所构建的模型应该能根据该测试数据的位置告诉我们其属于一组数据的可能性。
上图中,在蓝色圈内的数据属于该组数据的可能性较高,而越是偏远的数据,其属于该组数据的可能性就越低。
这种方法称为密度估计,表达如下:
模型为我们其属于一组数据的可能性,通过检测非正常数据。
15.2 高斯分布
高斯分布,也称为正态分布。
通常如果我们认为变量符合高斯分布则其概率密度函数为:我们可以利用已有的数据来预测总体中的和。其计算方法如下:
,
高斯分布举例:
15.3 算法
接下来,我们将应用高斯分布来做异常检测。
异常检测算法:对于给定的数据集,我们要针对每一个特征计算和的估计值。
一旦我们获得了平均值和方差的估计值,给定新的一个训练实例,根据模型计算:
当时,为异常。
下图是一个由两个特征的训练集,以及特征的分布情况:
下面的三维图表表示的是密度估计函数,轴为根据两个特征的值所估计值:
我们选择一个,将作为我们的判定边界,当时预测数据为正常数据,否则为异常。
15.4 开发和评价一个异常检测系统
常检测算法是一个非监督学习算法,意味着我们无法根据结果变量的值来告诉我们数据是否真的是异常的。我们需要另一种方法来帮助检验算法是否有效。当我们开发一个异常检测系统时,我们从带标记(异常或正常)的数据着手,我们从其中选择一部分正常数据用于构建训练集,然后用剩下的正常数据和异常数据混合的数据构成交叉检验集和测试集。
例如:我们有10000台正常引擎的数据,有20台异常引擎的数据。我们这样分配数据:
6000台正常引擎的数据作为训练集。
2000台正常引擎和10台异常引擎的数据作为交叉检验集。
2000台正常引擎和10台异常引擎的数据作为测试集。
具体的评论方法如下:
1、根据测试集数据,我们估计特征的平均值和方差并构建函数
2、对交叉检验集,我们尝试使用不同的值作为阀值,并预测数据是否异常,根据值或者查准率与查全率的比例来选择
3、选出后,针对测试集进行预测,计算异常检验系统的值,或者查准率与查全率之比。
15.5 异常检测与监督学习对比
之前我们构建的异常检测系统也使用了带标记的数据,与监督学习有些相似,下面的对比有助于选择采用监督学习还是异常检测:
两者比较:
15.6 选择特征
对于异常检测算法,我们使用的特征是至关重要的,下面谈谈如何选择特征:
异常检测假设特征符合高斯分布,如果数据的分布不是高斯分布,异常检测算法也能够工作,但是最好还是将数据转换成高斯分布,例如使用对数函数:,其中为非负常数;或者,为之间的一个分数,等方法。
误差分析:
一个常见的问题是一些异常的数据可能也会有较高的值,因而被算法认为是正常的。这种情况下误差分析能够帮助我们,我们可以分析那些被算法错误预测为正常的数据,观察能否找出一些问题。我们可能能从问题中发现我们需要增加一些新的特征,增加这些新特征后获得的新算法能够帮助我们更好地进行异常检测。
异常检测误差分析:
我们通常可以通过将一些相关的特征进行组合,来获得一些新的更好的特征(异常数据的该特征值异常地大或小),例如,在检测数据中心的计算机状况的例子中,我们可以用CPU负载与网络通信量的比例作为一个新的特征,如果该值异常地大,便有可能意味着该服务器是陷入了一些问题中。
15.7 多元高斯分布
假使我们有两个相关的特征,而且这两个特征的值域范围比较宽,这种情况下,一般的高斯分布模型可能不能很好地识别异常数据。其原因在于,一般的高斯分布模型尝试的是去同时抓住两个特征的偏差,因此创造出一个比较大的判定边界。
下图中是两个相关特征,洋红色的线(根据ε的不同其范围可大可小)是一般的高斯分布模型获得的判定边界,很明显绿色的X所代表的数据点很可能是异常值,但是其值却仍然在正常范围内。多元高斯分布将创建像图中蓝色曲线所示的判定边界。
在一般的高斯分布模型中,我们计算的方法是:通过分别计算每个特征对应的几率然后将其累乘起来,在多元高斯分布模型中,我们将构建特征的协方差矩阵,用所有的特征一起来计算.
我们首先计算所有特征的平均值,然后再计算协方差矩阵:
注:其中是一个向量,其每一个单元都是原特征矩阵中一行数据的均值。最后我们计算多元高斯分布的
下面我们来看看协方差矩阵是如何影响模型的:
上图是5个不同的模型,从左往右依次分析:
1. 是一个一般的高斯分布模型
2. 通过协方差矩阵,令特征1拥有较小的偏差,同时保持特征2的偏差
3. 通过协方差矩阵,令特征2拥有较大的偏差,同时保持特征1的偏差
4. 通过协方差矩阵,在不改变两个特征的原有偏差的基础上,增加两者之间的正相关性
5. 通过协方差矩阵,在不改变两个特征的原有偏差的基础上,增加两者之间的负相关性
可以证明的是,原本的高斯分布模型是多元高斯分布模型的一个子集,即像上图中的第1、2、3,3个例子所示,如果协方差矩阵只在对角线的单位上有非零的值时,即为原本的高斯分布模型了。
原高斯分布模型和多元高斯分布模型的比较:
原高斯分布模型被广泛使用着,如果特征之间在某种程度上存在相互关联的情况,我们可以通过构造新新特征的方法来捕捉这些相关性。
如果训练集不是太大,并且没有太多的特征,我们可以使用多元高斯分布模型。
15.8 使用多元高斯分布进行异常检测
对于多元高斯分布,我们已经知道其计算方法了,那么,我们如何把所有这一切共同开发一个异常检测算法?
首先,我们把我们的训练集,和我们的拟合模型,我们计算,要求出和
如图,该分布在中央最多,越到外面的圈的范围越小。那么超出范围的点,我们就认为是异常点。