Python Pandas 分类/连续变量的探索性数据分析(附源码与数据)——pandas 描述性统计,交叉表,数据透视表

​![在这里插入图片描述](https://img-blog.csdnimg.cn/20200907204009296.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzMyOTcwMA==,size_16,color_FFFFFF,t_70#pic_center)

这是趣味统计的第 1 期分享

作者 l 萝卜

正式开始建模与处理数据前,对数据进行探索并有一个初步的认识非常重要,本文将围绕变量探索,**展示分类、连续变量,以及两种类型变量结合的探索方法**,并展示 Python Pandas **数据处理与可视化**中的一些快捷常用骚操作~

> 注:本文数据与源代码在公众号 “ 数据分析与商业实践 ” 后台回复 “ 变量探索 ” 获取~~

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200907204118563.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzMyOTcwMA==,size_16,color_FFFFFF,t_70#pic_center)

#  分类变量

## 01  一个分类变量

一个分类变量的分析方法可考虑频次和百分比,用饼图或者柱状图表示都可以

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200907204141464.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzMyOTcwMA==,size_16,color_FFFFFF,t_70#pic_center)

我们也可以通过设置画布布局来同时显示两个连续变量的各自探索情况

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200907204208691.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzMyOTcwMA==,size_16,color_FFFFFF,t_70#pic_center)

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200907204241465.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzMyOTcwMA==,size_16,color_FFFFFF,t_70#pic_center)

## 02  两个分类变量

结合两个分类变量考量的分布情况可考虑使用交叉表 cross table

这里我们将探究每个地区的学区房分布情况:参数 margins 设置为 True 表示在最后一行与最后一列显示汇总统计 ALL

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200907204225478.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzMyOTcwMA==,size_16,color_FFFFFF,t_70#pic_center)

如果要将上述交叉表可视化,可考虑使用前人的轮子:一行代码快速绘制标准化的堆叠图,反映占比的同时还能看出每一类的数据量大小   

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200907204302478.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzMyOTcwMA==,size_16,color_FFFFFF,t_70#pic_center)

---

<br>

#  连续变量

## 01  一个连续变量

直接进行描述性统计分析,以房价分布为例

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200907204334950.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzMyOTcwMA==,size_16,color_FFFFFF,t_70#pic_center)

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200907204402669.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzMyOTcwMA==,size_16,color_FFFFFF,t_70#pic_center)

---

<br>

## 02  两个连续变量

绘制散点图等关系图进行探索,以探寻房屋面积与价格的关系为例

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200907204432583.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzMyOTcwMA==,size_16,color_FFFFFF,t_70#pic_center)

---

<br>

# 连续变量 + 分类变量

## 01  一个分类 + 一个连续

groupby 分组 + 描述性统计分析,制造出分类变量下每类的单一的连续变量相当于求分类后的每类的统计量,groupby 后面不跟统计量的代码没有意义。

分类箱型图,柱形图等,两坐标轴中一个为分类变量,另一个为连续变量

> 统计量是样本的数值概要,用来描述样本;参数则是总体的数值概要

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200907204530629.png#pic_center)

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200907204548973.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzMyOTcwMA==,size_16,color_FFFFFF,t_70#pic_center)

同理,也可绘制箱线图

![在这里插入图片描述](https://img-blog.csdnimg.cn/2020090720474759.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzMyOTcwMA==,size_16,color_FFFFFF,t_70#pic_center)

## 02 两个分类 + 一个连续

使用数据透视表,即在两个分类变量探索时使用的交叉表的升级

先整体确定由两个分类变量构成的行索引 index 与列索引 columns,然后再将连续变量的统计量如 mean,medium 等放入数据框内部。透视表函数中的部分参数与交叉表一样,只是多了处理连续变量的参数。

以求每个区域有无地铁时的房屋均价,发现无论在哪个区,有地铁的房屋价格均高于无地铁的。

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200907204811408.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzMyOTcwMA==,size_16,color_FFFFFF,t_70#pic_center)

当然,我们也可以尝试 “ 三个分类变量 + 一个连续变量 ”:

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200907204817287.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzMyOTcwMA==,size_16,color_FFFFFF,t_70#pic_center)

上透视表的理解步骤如下:

1. 参数 index 在 columns 前,表示行索引 index 将会根据地区 dist 来划分。

2. 参数 columns 中的列表顺序,school 在 subway 前,表示 index 分完后,列索引先根据学区房的有无来划分,而后再添加有无地铁这个划分标准。

即划分好地区后,求在有无学区房的前提情况下,是否有地铁时的房屋均价。如朝阳区的房子在无学区房的情况下,有地铁和没有地铁时的房屋均价分别是多少。

---

<br>

#  小结

本文以常见的房价数据集为例,展示了探索分类变量与连续变量的方法,涉及了一些**细节数据可视化操作;交叉表,数据透视表,频数统计,分组统计等 Pandas 数据处理操作**。这些都是探索数据过程中不可或缺的基础操作,熟练掌握很有必要😀

> 注:本文数据与源代码在公众号 “ 数据分析与商业实践 ” 后台回复 “ 变量探索 ” 获取~~

后续会不断更新常见场景下的 Python 实践

![在这里插入图片描述](https://img-blog.csdnimg.cn/2020090720494233.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzMyOTcwMA==,size_16,color_FFFFFF,t_70#pic_center)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容