通过聚类分析进行用户分类的思考

聚类分析的一般处理步骤:
确定维度、数据预处理、选择合适的聚类方法、对聚类效果进行分析、聚类结果分析与展示

一、确定维度

用户分类是分析在这些维度上的用户是否有显著的区别,因此聚类分析的数据维度的选择是至关重要的。
需要考虑两个方面:

  1. 目标
    首先,维度的选择在大方向上是要与需要解决的问题相一致。即用户在这些维度上有显著的区别。
    In other words,这些维度需要能够表明用户的特征,以助于产品设计或优化。
    如:
    用户行为特征,来针对不同用户做不同的设计;
    活跃度等特征,找出高价值用户;

  2. 维度的特征
    对于单个维度,数据的分布以正态分布为佳,其他分布应该进行数据处理。
    长尾分布可以取log10()
    对于多个维度,维度应该不具有很强的相关性。有很强的相关性,可以作因子分析。

另外,CLIQUE算法,可以发现子空间的簇,来筛选合适的维度。

二、数据预处理

  • 高维度/低维度:高维空间中的邻近度将趋向于0,导致各个点的临近度更加一致。维规约、因子分析、主成分分析。
  • 数量级:数量级高的数据集,需要采用可伸缩性的算法。
  • 稀疏性:
  • 噪声、离群点:提前排除
  • 数据属性:定量/分类,离散/连续
  • 度量单位:将数据标准化,消除属性单位的影响
  • 权重:对属性进行加权

三、选择合适的聚类方法

3.1基于原型的聚类 Prototype-Based Clustering

  • K-means
  • Mixture Models 混合模型
    EM算法
    优点:比k均值或模糊c均值更一般,可以使用各种类型的分布
    缺点:EM算法可能很慢;不能很好处理近似协线型的数据点;在正确的模型形式方面也存在问题;
  • Self-Organizing Maps(SOM)自组织映射

3.2基于密度的聚类 Density-Based Clustering

  • DBSCAN

  • Subspace Clustering子空间聚类
    CLIQUE(Clustering In quest)系统地发现子空间簇的基于网格的聚类算法

3.3基于图的聚类 Graph-Based Clustering
Sparsification稀疏化
断开相似度小于一定阈值的边,或仅保留连接到点的k个最近邻的边

  • Minimum Spanning Tree(MST) Clustering最小生成树聚类
    产生与单链凝聚聚类相同的聚类

  • Chameleon:Hierarchical Clustering with Dynamic Modeling
    稀疏化、图划分、层次凝聚

  • Jarvis-Patrick聚类算法
    以SNN相似度取代两个点之间的邻近度

3.4可伸缩的聚类算法 Scalable Clustering Algorithm

  • BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)
    能够处理离群点
    是一种增量的聚类方法,因为它对每一个数据点的聚类的决策都是基于当前已经处理过的数据点,而不是基于全局的数据点。
    主要是在数据体量很大的时候使用,而且数据类型是numerical

  • CURE(Clustering Using REpresentative)
    处理离群点和具有非球形和非均匀大小的簇的数据
    在簇里选定一定数量的点,彼此最远,以代表簇的形状

四、对聚类效果进行分析

四、聚类结果分析与展示

通过比较每个簇的描述性统计量,来分析各个簇的特点。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,287评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,346评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,277评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,132评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,147评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,106评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,019评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,862评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,301评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,521评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,682评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,405评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,996评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,651评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,803评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,674评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,563评论 2 352

推荐阅读更多精彩内容