用K-Means算法进行文本聚类

K-Means聚类算法

KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。

K-Means聚类算法主要分为三个步骤:

  • 第一步是为待聚类的点寻找聚类中心

  • 第二步是计算每个点到聚类中心的距离,将每个点聚类到离该点最近的聚类中去

  • 第三步是计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心
    反复执行(2)、(3),直到聚类中心不再进行大范围移动或者聚类次数达到要求为止

下图展示了对n个样本点进行K-means聚类的效果,这里k取2:
  • 未聚类的初始点集
  • 随机选取两个点作为聚类中心
  • 计算每个点到聚类中心的距离,并聚类到离该点最近的聚类中去
  • 计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心
  • 重复(c),计算每个点到聚类中心的距离,并聚类到离该点最近的聚类中去
  • 重复(d),计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 聚类分析是我们数据挖掘中常用的算法,常常用于没有分类,但又有相关相似性的样本研究当中,包括了K-Means、K-中...
    大圣众包阅读 20,568评论 0 3
  • 算法核心逻辑是:A、指定需要把人群划分为x个类B、算法自动把相似的人划分到对应的类中C、得到x个类的人,每个类的人...
    波_洛阅读 4,328评论 0 0
  • 1. 机器学习基本概念 1.1 什么是机器学习 机器学习(Machine Learning)是一种基本数据的学习,...
    ZPPenny阅读 9,869评论 0 10
  • 大家早安、午安、晚安哈,继续学习机器学习算法,接下来几篇均是无监督学习算法。今天首先学习K-means(K-均值)...
    keepStriving阅读 11,203评论 0 7
  • 春天将尽时,突然刮起了一阵旋风,匍匐在池塘里的柳絮御风而起,扶摇直上。当柳絮高踞云端,看到地面上的烟囱、楼房、...
    南山散人阅读 3,567评论 0 2