统计-聚类:K means 和 K nearest

K值选择原理:

1 目前尚没有明确的方法选择最佳,所以需要多尝试

2 K值低,会受离群值的影响

3 K值高,会导致一些小样本量的样本没有话语权


K-means原理:

1 选择K值。

2 如果K=3,就随机选择3个母点
3 计算每个点到这三个母点的距离d
4 找到距离d的最小值,这个点就属于哪一类
5 重复很多很多次,直至不再变化了,此时数据就被分成K=3类

K nearest原理:

1. 将数据映射成PCA的格式
2. 随机找一个母点
image.png
3. 计算每一个点到这个母点的距离,如图,这个母点为绿色类
4. 举例:
  • K=11时,将图中所有点到黑色母点的距离排序,取TOP11个点
  • 11个点中,7个为红色,3个为橙色,1个为绿色。则这个点属于红色类
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容