流程
-
商业理解
对现行商业问题的剖析,根据网络数据,文档等对商业问题的一个初步理解,为数据挖掘提供方向。
比如对旧有商业模型的理解,对现行趋势的分析等。
-
数据理解
对现有数据的初步分析,使用统计,探测等方法对现有数据有一个大致上的了解,为下一步骤做准备。
比如根据统计结果查看属性的可用性与分布情况。
-
数据准备
对现有数据采取过滤无效数据、转换数据值、生成新属性、异常处理等操作来产生出可用于数据挖掘模型建立的数据。
具体流程:
清洗数据:处理数据中缺失和无效值,
构建数据:根据已有数据,构建更适合与数据挖掘的新数据字段,
选择数据:分析与过滤掉与商业问题不相关的数据字段,
格式化数据:根据算法不同改变数据形式
-
建立模型
将数据分成训练集与检验集,使用训练集建立模型,使用检验集检验模型得出结果
模型训练算法
聚类算法K-means
顾名思义,这个算法是与K相关的一个方法,事实也是如此。
对于一个大的集群,该方法通过对以下三步的不停迭代得出结果:
- 确定K值,K值表示需要将这个大的集群分成多少个小的簇(聚类)。然后虚拟K个中心位于集群坐标系内。
- 计算集群坐标系内所有点与K个中心点的位置,将距离中心点最近的点划归一簇。
- 根据每一簇的所有点计算这一簇的重心,将其作新的K个中心点重复这一过程。
为何要迭代
经过证明,算法是必然收敛的。意思也就是说,在N次迭代后,K个中心点都趋于稳定,不会发生大的变动。
缺点
- 不适合在坐标系中呈现形状怪异的集群,比如月亮型此类的非凸形状的聚类
- 不适合有属性参数值间差异过大(连续值之间跨度过大)的集群
适用范围
- 小规模的球形或圆形数据
- 高纬度数据(属性多),纬度越高聚类效果越好