通过聚类分析进行用户分类的思考

聚类分析的一般处理步骤：
确定维度、数据预处理、选择合适的聚类方法、对聚类效果进行分析、聚类结果分析与展示

用户分类是分析在这些维度上的用户是否有显著的区别，因此聚类分析的数据维度的选择是至关重要的。
需要考虑两个方面：

目标
首先，维度的选择在大方向上是要与需要解决的问题相一致。即用户在这些维度上有显著的区别。
In other words，这些维度需要能够表明用户的特征，以助于产品设计或优化。
如：
用户行为特征，来针对不同用户做不同的设计；
活跃度等特征，找出高价值用户；
维度的特征
对于单个维度，数据的分布以正态分布为佳，其他分布应该进行数据处理。
长尾分布可以取log10（）
对于多个维度，维度应该不具有很强的相关性。有很强的相关性，可以作因子分析。

另外，CLIQUE算法，可以发现子空间的簇，来筛选合适的维度。

3.1基于原型的聚类 Prototype-Based Clustering

K-means
Mixture Models 混合模型
EM算法
优点：比k均值或模糊c均值更一般，可以使用各种类型的分布
缺点：EM算法可能很慢；不能很好处理近似协线型的数据点；在正确的模型形式方面也存在问题；
Self-Organizing Maps(SOM)自组织映射

3.2基于密度的聚类 Density-Based Clustering

3.3基于图的聚类 Graph-Based Clustering
Sparsification稀疏化
断开相似度小于一定阈值的边，或仅保留连接到点的k个最近邻的边

3.4可伸缩的聚类算法 Scalable Clustering Algorithm

BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)
能够处理离群点
是一种增量的聚类方法，因为它对每一个数据点的聚类的决策都是基于当前已经处理过的数据点，而不是基于全局的数据点。
主要是在数据体量很大的时候使用，而且数据类型是numerical
CURE(Clustering Using REpresentative)
处理离群点和具有非球形和非均匀大小的簇的数据
在簇里选定一定数量的点，彼此最远，以代表簇的形状

通过比较每个簇的描述性统计量，来分析各个簇的特点。