关于聚类分析
什么是聚类?聚类是聚合或分组数据的一种方式。聚类允许使用多个变量来创建分组(使用模型 k-means 聚类)。在 Tableau 中如何实现聚类分析?可以尝试使用 R 。
Tableau 可以通过 R 做一些高级分析:例如主成分析、因子分析、聚类分析、分类分析等等。
我们示例一个聚类分析的场景:随着我国居民生活水平不断提升,消费需求也不断增长,但消费结构仍存在一定的地域性差异。如果可以让相近消费水平城市会聚成一类,就很容易看出各个城市的相近与差异。
因此,我们想利用聚类分析方法对我国31个省(直辖市、自治区)城镇居民消费结构进行研究与分析,发现各区域消费结构的差异,从而为各地政府提供更加有效的决策依据。
今天的栗子,将通过 聚类分析呈现城镇居民消费水平 为大家分享:在 Tableau 中使用 R 做聚类分析。
本期《举个栗子》,阿达要给大家分享的 Tableau 技巧是:使用 R 实现聚类分析。
————————————————————————————》》
为方便学习,我们使用中国统计年鉴2012年统计数据(如下图)。如需这份数据源学习,私信我。
Tips:为了消除各地区在区域面积、人口等方面的先天差异,使数据的分析结果更合理,这里的指标均采用各地区城镇居民家庭平均每人全年消费性支出作为分析对象,即采用人均值。
具体步骤如下:
STEP 1:安装 R,并在 Tableau 连接 R
下载 R,并安装:
install.packages(“Rserve”)
library(Rserve)
Rserve()
Tableau 连接 R ,并输入服务器和端口号并确定。
STEP 2:创建计算字段
接着,创建计算字段 Cluster(如下图)。这个计算字段的作用:我们把这31个省聚成6类,聚成6类的依据是:交通和通信,医疗保健,家庭设备用品及服务,居住,教育文化娱乐服务,杂项商品和服务,衣着,食品。
STEP 3:创建图表
将“交通和通信”、“家庭设备用品及服务“、”教育文化娱乐服务“、“衣着“拖到列;
将“医疗保健“、”居住“、“杂项商品和服务”、“食品”拖到行;
将计算字段 Cluster 拖入”颜色“和”标签“里;
将地区拖入“工具提示“,并修改颜色,如下图(图一)所示。
将地区拖入列,计算字段 Cluster 拖入行、颜色与文本,如下图(图二)所示。
从这两张图表中,我们可以看出:
➤ 广东,上海,北京,浙江这四个省市:在“医疗保健“、”教育文化娱乐服务“、”居住“、”食品“、“杂项商品和服务“、”交通和通信“普遍偏高,属于高消费群体。
➤ 西藏,云南,贵州,海南,安徽等地:在“衣着“、”杂项商品服务”、“居住”、“教育文化娱乐服务“、”医疗保健“普遍偏低,总体消费水平偏低。
今天的 Tableau 技巧,你 Get 到了吗?赶快试试看吧!
下一期《举个栗子》,再会~
文章部分信息来源于网络,如有侵权请告知!