(1)高斯分布(Gaussian Distribution )
在图像中呈现结果,𝜇为中心轴,𝜎2为x到𝜇的横坐标之差
将正态分布图像“投影”到x轴上(逆思想可由数据映射到正态分布)
(2)算法
应用高斯分布开发异常检测算法,算法如下:
通过设定𝜀值,如下设定𝜀=0.02,若P(x)<𝜀,则检测为异常。
(3)异常检测和监督学习区别
(4)选择特征
异常检测时特征如果符合高斯分布,异常检测算法将会起到很好的作用。因此,对于那些不符合高斯分布的数据需要将其转换。例如使用𝑥 = 𝑙𝑜𝑔(𝑥 + 𝑐),其中 𝑐为非负常数; 或者 𝑥 = ,𝑐为 0-1 之间的一个小数等方法。
如利用𝑥 = 𝑙𝑜𝑔(𝑥 + 𝑐)将原始数据(左图)asdf转换为符合高斯分布的特征(右图):
误差分析:
有时算法可能会将一些异常的数据当做正常的数据进行处理,此时应增加新特征帮助算法更好的进行异常检测。比如,通过通过将一些相关的特征进行组合获得新的特征等。
(5)多元高斯分布
假使我们有两个相关的特征,而且这两个特征的值域范围比较宽,这种情况下,一般的高斯分布模型可能不能很好地识别异常数据。其原因在于,一般的高斯分布模型尝试的是去同时抓住两个特征的偏差,因此创造出一个比较大的判定边界。
粉红色线为一般的高斯分布模型获得的判定边界,红色点为正常点。可看出,绿色点为异常点,但其P(x)值去仍在正常范围内。因此,多元高斯分布的目的就是获得蓝色的判定边界,去除异常点
在一般的高斯分布模型中,我们计算 𝑝(𝑥) 的方法是: 通过分别计算每个特征对应的几率然后将其累乘起来,在多元高斯分布模型中,我们将构建特征的协方差矩阵,用所有的特征一起来计算 𝑝(𝑥)。 我们首先计算所有特征的平均值,然后再计算协方差矩阵:
上图是 5 个不同的模型,从左往右依次分析:
1. 是一个一般的高斯分布模型
2. 通过协方差矩阵,令特征 1 拥有较小的偏差,同时保持特征 2 的偏差
3. 通过协方差矩阵,令特征 2 拥有较大的偏差,同时保持特征 1 的偏差
4. 通过协方差矩阵,在不改变两个特征的原有偏差的基础上,增加两者之间的正相关性
5. 通过协方差矩阵,在不改变两个特征的原有偏差的基础上,增加两者之间的负相关性
如果训练集不是太大,并且没有太多的特征,我们可以使用多元高斯分布模型。