1 PCA
标准化-协方差矩阵-特征值/特征向量-选择特征向量
计算投影值,投影值越大,越异常
2 DBSACN
在聚类过程中寻找核心对象,扩展密度可达的样本,由密度可达关系导出的最大密度相连的样本集合,即为我们最终聚类的一个类别。
图中MinPts=5,红色的点都是核心对象。
密度直达:epsilon邻域内,黑色点由红色点密度直达;
密度可达:可以相连的核心对象,图中的绿色箭头连线;
密度相连:密度可达的样本序列的ϵϵ-邻域内所有的样本相互都是密度相连的。
3 LOF
局部异常因子:计算每个点的核心密度,如果密度明显小于邻居,则为异常点;
如果数据点 p 的 LOF 得分在1附近,表明数据点p的局部密度跟它的邻居们差不多;
如果数据点 p 的 LOF 得分小于1,表明数据点p处在一个相对密集的区域,不像是一个异常点;
如果数据点 p 的 LOF 得分远大于1,表明数据点p跟其他点比较疏远,很有可能是一个异常点。
4孤立森林
通过计算决策路径的长度来判断异常,决策路径越短,说明越可能是异常。
5 one class svm
给出正常值的边界,超出边界,就是异常值。