15 异常检测

内容：
15.1 异常检测
15.2 高斯分布
15.3 异常检测算法
15.4 开发和评价一个异常检测系统
15.5 异常检测与监督学习
15.6 选择特征
15.7 多元高斯分布与异常检测

15.1 异常检测

异常检测有什么用

假想你是一个飞机引擎制造商，当你生产的飞机引擎从生产线上流出时，你需要进行QA(质量控制测试)，而作为这个测试的一部分，你测量了飞机引擎的一些特征变量，比如引擎运转时产生的热量，或者引擎的振动等等。

这里的每个点、每个叉，都是你的无标签数据。
异常检测问题可以定义如下：我们假设后来有一天，你有一个新的飞机引擎从生产线上流出，而你的新飞机引擎有特征变量𝑥𝑡𝑒𝑠𝑡。所谓的异常检测问题就是：我们希望知道这个新的飞机引擎是否有某种异常

异常检测原理

假使已知数据集是正常的，我们希望知道新的数据 𝑥𝑡𝑒𝑠𝑡是不是异常的。那么我们所构建的模型应该能根据该新的测试数据的位置告诉我们其属于一组数据的可能性 𝑝(𝑥)。

上图中，在蓝色圈内的数据属于该组数据的可能性较高，而越是偏远的数据，其属于该组数据的可能性就越低。

这种方法称为密度估计，表达如下：

异常检测应用

识别欺骗。例如在线采集而来的有关用户的数据，一个特征向量中可能会包含如：用户多久登录一次，访问过的页面，在论坛发布的帖子数量，甚至是打字速度等。尝试根据这些特征构建一个模型，可以用这个模型来识别那些不符合该模式的用户。
检测数据中心。特征可能包含：内存使用情况，被访问的磁盘数量，CPU 的负载，网络的通信量等。根据这些特征可以构建一个模型，用来判断某些计算机是不是有可能出错了。

15.2 高斯分布(正态分布)

高斯分布

概率密度函数

𝜇

𝜎2

高斯分布样例

可以观察两个参数与图形之间的关系，u决定轴，𝜎决定高矮

15.3 异常检测算法

对于给定的数据集 𝑥(1),𝑥(2),...,𝑥(𝑚)，我们要针对每一个特征计算 𝜇 和 𝜎2 的估计值。

一旦我们获得了平均值和方差的估计值，给定新的一个训练实例，根据模型计算 𝑝(𝑥)：

当𝑝(𝑥) < ε时，为异常。

下图是一个由两个特征的训练集，以及特征的分布情况：

下面的三维图表表示的是密度估计函数，𝑧轴为根据两个特征的值所估计𝑝(𝑥)值：

我们选择一个ε，将𝑝(𝑥) = ε作为我们的判定边界，当𝑝(𝑥) > ε时预测数据为正常数据，否则为异常。

15.4 开发和评价一个异常检测系统

异常检测算法是一个非监督学习算法，意味着我们无法根据结果变量 𝑦 的值来告诉我们数据是否真的是异常的。我们需要另一种方法来帮助检验算法是否有效。当我们开发一个异常检测系统时，我们从带标记（异常或正常）的数据着手，我们从其中选择一部分正常数据用于构建训练集，然后用剩下的正常数据和异常数据混合的数据构成交叉检验集和测试集。
例如：我们有 10000 台正常引擎的数据，有 20 台异常引擎的数据。我们这样分配数据：
6000 台正常引擎的数据作为训练集
2000 台正常引擎和 10 台异常引擎的数据作为交叉检验集
2000 台正常引擎和 10 台异常引擎的数据作为测试集
具体的评价方法如下：

根据测试集数据，我们估计特征的平均值和方差并构建𝑝(𝑥)函数
对交叉检验集，我们尝试使用不同的 ε 值作为阀值，并预测数据是否异常，根据 F1 值或者查准率与查全率的比例来选择 ε
选出 ε 后，针对测试集进行预测，计算异常检验系统的𝐹1值，或者查准率与查全率之比。

15.5 异常检测与监督学习对比

在哪种情况下选择异常检测，哪种情况下选择监督学习？

首先解释：正向类（异常数据 𝑦 = 1）, 负向类（正常数据𝑦 = 0）

15.6 选择特征

如何选择特征？

异常检测假设特征符合高斯分布，如果数据的分布不是高斯分布，异常检测算法也能够工作，但是最好还是将数据转换成高斯分布，例如使用对数函数：𝑥 = 𝑙𝑜𝑔(𝑥 + 𝑐)，其中 𝑐 为非负常数；或者 𝑥 = 𝑥𝑐（幂），𝑐为 0-1 之间的一个分数，等方法。
误差分析：
一个常见的问题是一些异常的数据可能也会有较高的𝑝(𝑥)值，因而被算法认为是正常的。这种情况下误差分析能够帮助我们，我们可以分析那些被算法错误预测为正常的数据，观察能否找出一些问题。我们可能能从问题中发现我们需要增加一些新的特征，增加这些新特征后获得的新算法能够帮助我们更好地进行异常检测。
特征选择
我们通常可以通过将一些相关的特征进行组合，来获得一些新的更好的特征（异常数据的该特征值异常地大或小），例如，在检测数据中心的计算机状况的例子中，我们可以用 CPU负载与网络通信量的比例作为一个新的特征，如果该值异常地大，便有可能意味着该服务器是陷入了一些问题中。

15.7 多元高斯分布

不成功的例子
假使我们有两个相关的特征，而且这两个特征的值域范围比较宽，这种情况下，一般的高斯分布模型可能不能很好地识别异常数据。其原因在于，一般的高斯分布模型尝试的是去同时抓住两个特征的偏差，因此创造出一个比较大的判定边界。
下图中是两个相关特征，洋红色的线（根据 ε 的不同其范围可大可小）是一般的高斯分布模型获得的判定边界，很明显绿色的 X 所代表的数据点很可能是异常值，但是其𝑝(𝑥)值却仍然在正常范围内。多元高斯分布将创建像图中蓝色曲线所示的判定边界。
多元高斯分布
在一般的高斯分布模型中，我们计算 𝑝(𝑥) 的方法是：通过分别计算每个特征对应的几率然后将其累乘起来，在多元高斯分布模型中，我们将构建特征的协方差矩阵，用所有的特征一起来计算 𝑝(𝑥)。

首先计算所有特征的平均值，然后再计算协方差矩阵：

上图是 5 个不同的模型，从左往右依次分析：
1是一个一般的高斯分布模型
2通过协方差矩阵，令特征 1 拥有较小的偏差，同时保持特征 2 的偏差
3通过协方差矩阵，令特征 2 拥有较大的偏差，同时保持特征 1 的偏差
4通过协方差矩阵，在不改变两个特征的原有偏差的基础上，增加两者之间的正相关性
5通过协方差矩阵，在不改变两个特征的原有偏差的基础上，增加两者之间的负相关性

原高斯分布模型和多元高斯分布模型的比较

原本的高斯分布模型是多元高斯分布模型的一个子集。

其中m是样本数，n是特征数

使用多元高斯分布进行异常检测

设置 𝜇 是训练样本的平均值：

设置𝛴：

给定一个新数据，计算

如果𝑝(𝑥) < ε那么这就是异常数据
原始模型和多元高斯分布比较

原始模型在n（特征数）很大的时候都适用；多元高斯分布在n很大的时候不适用，因为还有一个很麻烦的矩阵
原始模型在m（训练集大小）比较小的时候适用；多元高斯模型在m>>n的时候适用，因为这时矩阵可逆

机器学习13 异常检测