聚类分析-countries

聚类分析是根据事物自身的特性对被聚类对象进行类别划分的统计分析方法,它的目的是根据某种相似度度量对数据集进行划分。

目标数据文件:

smoker.xlsx  一共6个变量

目的:根据该数据中的变量特征进行聚类。


方法一:基于python在spyder中实现。

代码如下:

代码写到这,进行了导入数据、查看数据、清洗数据(数据类型变更、去缺失值)。

清洗完数据之后,筛选出不同年份的数据放入新的数据框,并对这些数据进行相关分析corr()

相关分析之后发现,这两个数值型变量“成年人吸烟占比”和“人均GDP (单位:国际元)”呈低度相关,决定根据这两个变量的变量特征进行聚类。

提取最近年份2016年的数据中的“成年人吸烟占比”和“人均GDP (单位:国际元)”放入nin数据框中,但是nin数据框中 “成年人吸烟占比”和“人均GDP (单位:国际元)”的数据差距太大,不在一个量纲,所以要进行数据标准化。

没有进行标准化之前的数据
进行标准化之后的数据


数据标准化之后,导入KMeans模块进行分类,分成了三类,并把分类标签添加进nin数据框中,再做散点图。

散点图

分类后导入轮廓系数评分模块metrics查看评分:0.4466479445680197。

评分越接近1,效果越好!

怀疑是不是分类出问题,肘部法则看一下。

坡度趋于平缓的位置就是分类的数量,上图中肘部法则建议分三类。

导出中心距离数据:

第一类:吸烟占比和其他两类有明显差异,比较高;

第二类:人均GDP和其他两类有明显差异,特别高;

第三类:吸烟占比、人均GDP和其他两类有明显差异,比较低。

聚类完成后,分析各分类对象的特征:

查看三个类别的数量

从代码中可以nine数据框中的数据是2016年的原始数据,此次聚类的数据就是2016的数据,所以在nine数据框中添加分类标签并导出为sk.csv.

在excel中对sk.csv中各类别数据进行描述性统计:

第一类

第一类,有61个国家,平均成年人吸烟占比接近30,人均GDP为中等水平。


第二类

第二类,有29个国家,平均成年人吸烟占比为21.5,在这三类国家里为中等,但是这一类国家的人均GDP较高。


第三类国家

第三类,有52个国家,平均成年人吸烟占比为12.3较低,人均GDP较低。




我觉得这个分类不够细,决定用第二种方法进行聚类

方法二:基于spss进行聚类分析。

一、k-means均值聚类(省略了步骤,只呈现结果)

频率(个数)表
描述统计表

发现spss均值聚类结果和python聚类分析结果几乎一样。

二、系统聚类(省略了步骤,只呈现结果)

系统聚类最大分四类,最少分三类

分三类频率表
描述统计表

惊讶的发现系统聚类分三类变得更模糊了。

分四类频率表
描述统计表

惊喜的系统聚类分四类:

第一类:只有2个国家,根据吸烟占比和人均GDP,发现这是两个富有的国家;

第二类:有81个国家,根据根据吸烟占比和人均GDP,发现包含了发达国家和发展中国家;

第三类:有42个国家,根据根据吸烟占比和人均GDP,发现包含了欠发展的国家;

第四类:有17个国家,根据根据吸烟占比和人均GDP,发现包含了较发达的国家。



在日常工作中,选择哪一个聚类结果要结合我们的业务场景,这就是我常用的聚类分析方法,OVER!


看过的点个赞鸭!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,951评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,606评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,601评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,478评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,565评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,587评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,590评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,337评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,785评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,096评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,273评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,935评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,578评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,199评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,440评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,163评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,133评论 2 352

推荐阅读更多精彩内容