目的:介绍无监督学习异常检测算法,主要是用高斯分布(正态分布)数据模型
1. Lesson 123 问题动机
1. 目的:解释异常检测的背景也应用场景
2. 内容:给到一定的数据集,无监督训练并建立模型(p(x),高斯分布),当p(x)<ℇ时,代表异常
3. 应用场景:交易欺诈、网站登录异常、服务器集群监控等
2. Lesson 124 高斯分布
1. 目的:介绍高斯分布(正态分布)
2. 内容:
1. 实数集x∈R,如果说x服从均值μ,方差𝜎2的正太分布,则记为:x~N(μ,𝜎2),其中μ空值曲线的中心,𝜎^2空值宽度
2. 高斯分布公式
3. 标准正太分布,μ=0,,𝜎=1
4. 均值μ、方差𝜎^2公式
3. Lesson 125 算法
1. 目的:介绍如何将高斯分布应用于算法,以及如何开发
4. Lesson 126 开发和评估异常检测
1. 目的:评估异常检测算法
2. 内容:
1. 最好是有正样本的数据集,并且将正样本分散到验证集和测试集中
2. 异常检测本身也是一个非对称数据集,在具体评估时使用召回率(R=正确预测分类数量/实际正样本数量,评估覆盖度)、准确率(P=正确预测分类数量/预测正样本数量,评估准确性)、F值(2(PR)/(P+R) ,F值越大越好)指标进行评估
5. Lesson 127 异常检测与监督学习
1. 目的:解释异常检测和监督学习的区别和不同应用场景
2. 内容
1. 当正样本数量极少,负样本数量极多(即非对称数据集)时建议使用异常检测算法,且正样本的异常情况不好预测
2. 当数据集同时包括了大量正负样本时,可以使用监督学习
6. Lesson 128 选择要使用的特征
1. 目的:如何选择或设计异常检测算法的特征变量
2. 内容:
1. 首先画出x的分布图,看是否服从正太分布,如果不服从,可以用使用log(x+c)等函数使得x_new服从正太分布
2. 误差分析,通过误差分析找出异常值,并人工检查看能否发现新的特征,比如衍生变量(x1/x2等)
7. Lesson 129 多变量高斯分布
1. 目的:介绍原始多元分布的延伸,多元高斯分布
2. 内容:
1. 存在一种情况是单个独立特征服从高斯分布,并不异常,但是组合起来就明显异常,这个时候就需要用到多变量高斯分布
2. 多元高斯分布公式
8. Lesson 130 使用多变量高斯分布的异常检测
1.目的:讲解多元高斯分布算法公式
2.内容
1.具体公式已经放到上图中