数据去噪方法

一. 异常值填补方法

1.1 k-近邻替换法
1.2 局部加权替换法
1.3 有序最近邻替换法
1.4 均值法
1.5 最常见值法
1.6 回归填补法
1.7 多重填补方法(M-试探法)

二. 基于距离检测

k-近邻法

根据距离来确定具有缺失值数据最近的k个近邻,然后将这个k个值加权(权重一般是距离的比值吧),然后根据自定义的阈值,将距离k个近邻距离超过阈值的当做异常点。

三. 基于统计学方法检测

3σ探测方法

探测方法的思想其实就是来源于切比雪夫不等式,一般来说:

  • 所有数据中,至少有 3/4(75.0%)的数据位于平均数2个标准差范围内。
  • 所有数据中,至少有 8/9(88.9%)的数据位于平均数3个标准差范围内。
  • 所有数据中,至少有 24/25(96.0%)的数据位于平均数5个标准差范围内。
    注:只适用于单维数据

四. 基于分布的异常值检测

本方法是根据统计模型或者数据分布。然后根绝这些模型对样本集中的每个点进行不一致检验的方法。只适用于单维数据。因为数据分布未知,所以不是太准确。

3.1 Grubbs检验

步骤一:先把数据按照从小到大的顺序排列x1,x2…xn
步骤二:假设我们认为xi为异常点。计算平均值avg;
步骤三:计算算数 平均值标准差 的估计量s
步骤四:计算统计量 gi=|xi - avg|/s
步骤五:将gi与查Grubbs检验法的临界值表所得的g(a, n)进行比较。如果gi < g(a,n),则认为不是异常值;如果大于,就认为这个点是异常值。

3.2 Dixon检验

查表

3.3 3t分布检验方法

查表

五. 基于密度聚类

5.1 DBSCAN

由密度可达关系导出的最大密度相连的样本集合,即为我们最终聚类的一个簇。
DBSCAN是基于一组邻域来描述样本集的紧密程度的,参数(ϵ, MinPts)用来描述邻域的样本分布紧密程度。其中,ϵ描述了某一样本的邻域距离阈值,MinPts描述了某一样本的距离为ϵ的邻域中样本个数的阈值。

5.2 OPTICS

目标是将空间中的数据按照密度分布进行聚类,其思想和DBSCAN非常类似,但是和DBSCAN不同的是,OPTICS算法可以获得不同密度的聚类,理论上可以获得任意密度的聚类。

5.3 Chameleon

步骤一:创建稀疏图(kNN图);
步骤二:分裂稀疏图为小partitions;
步骤三:合并partitions;
Chameleon没有考虑簇与簇之间的连通性

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A...
    山的那边是什么_阅读 33,817评论 2 59
  • 在使用tableviewCell 时不少会遇到 编辑删除 一般UI 设计师为了展示其设计功底,会自定义一些icon...
    梦之旅_e217阅读 1,110评论 0 0
  • 今天是母亲节,我非常期待能收到什么礼物,恰好今天是孩子的美术辅导课,我知道今天一定是一堂围绕母亲节为主题的手工课,...
    五彩气球阅读 213评论 0 0
  • 已经进入一个新的凌晨,依旧没睡意,原因是下午喝了一杯果茶,只是果茶。 是的我对咖啡因过敏——超过中午就不能喝茶或咖...
    小粥哥阅读 272评论 0 5