K-mean(2018-05-05)

  1. 非监督学习
  • 定义:训练数据无类。
  • 包括:类簇 (训练数据能分成某些组,例如:市场分割,社交网络分析,基因检测); 异常检测(训练数据中,一些值不能归于期待的模型)
  1. Clustering 算法
  • partitioning methods(分开算法,基于中心分簇);例如:找出球形的相互独立的簇;基于距离;k-means
  • 基于关联性的方法;例如:自上而下;自下而上
  • 基于密度的方法;例如:密度模型DBSCAN
  • 基于网格的方法;例如:使用多分辨率网格数据结构
  • 基于分布的方法;例如:Expectation-maximization算法
  1. K-means
  • 定义:将数据分成K组,而每个簇都由簇中心点的距离有关
  • 步骤: (1)选出k个点,作为均值中心点;(2)每个点的归簇问题由与中心最近的距离决定; (3)更新下最新的均值中心点;(4) 重复以上步骤。


    image.png
  • K-mean缺点:(1) k的确定需要提前决定
    (2)均值中心点的初始化很重要,选不好,就很容易产生不好的结果; (3) 只能解决数字化问题,例如性别,国家等类别,需要预先用数字表示;(4)在本地最小点,算法会停滞,即不收敛


    image.png

    image.png

    (5)很容易受异常点和噪声影响,导致不准确分割
    (6)不能用于球形的簇分割,或者不同密度和尺寸的簇

  1. 如何选择k值
  • 法1:根据分割结果,来调整k值
  • 法2: elbow法,即尝试不同的k值,逐步增加k值,然后观察到均值中心点的平均距离变化;理想下,均值距离初期快速下降,后期缓慢下降;
    -总的来说,目前很难找到elbow点,实际应用中,不用elbow法来找k值。
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容