《利用Python进行数据分析》 12.1 分类数据

第十二章 高阶pandas


12.1 分类数据


12.1.1 背景和目标

1.pandas中unique和value_counts函数

       一个列经常会包含重复值,这些重复值是一个小型的不同值的集合。

       看见向unique和value_counts这样的函数,它们允许我们从一个数组中提取不同值并分别计算这些不同值的频率。(见图12-1)

图12-1:unique和value_counts函数

2.维度表的使用

       许多数据系统(用于数据入库、统计计算或其他用途)已经开发出专门的方法,用重复的值来表示数据,以便更有效地存储和计算。

       在数据入库的操作中,使用所谓的维度表是一种最佳实践,维度表包含了不同值,并将主要观测值存储为引用维度表的整数键。(见图12-2)

图12-2:维度表的使用

:这种按照整数展现的方式被称为分类或字典编码展现。不同值的数组可以被称为数据的类别、字典或层级。

       做数据分析时,分类展示会产生显著的性能提升。你也可以在类别上进行转换同时不改变代码。以下是一些相对低开销的转换示例:

· 重命名类别

· 在不改变已有的类别顺序的情况下添加一个新的类别


12.1.2 pandas中的Categorical类型

pandas拥有特殊的Categorical类型,用于承载基于整数的类别展示或编码的数据。

Series 示例(见图12-3)

图12-3:Series示例

1.调用函数astype将Python字符串对象组成的数组df['fruit']转换为Categorical对象(见图12-4)

图12-4:调用函数astype

2.Categorical对象的category和codes属性(见图12-5)

图12-5:category和codes属性

3.通过分配已转换的结果将DataFrame的一列转换为Categorical对象(见图12-6)

图12-6:将DataFrame一列转换为Categorical对象

4.从其他Python序列类型直接生成pandas.Categorical(见图12-7)

图12-7:直接生成pandas.Categorical

5.从另一个数据源获得了分类编码数据,可以使用from_codes构造函数(见图12-8)

图12-8:使用from_codes构造函数

6.为类别指定顺序以及使用as_ordered排序(见图12-9)

图12-9:为类别排序

:一个分类数组可以包含任一不可变的值类型。


12.1.3 使用Categorical对象进行计算

       pandas中使用Categorical与非编码版本相比(例如字符串数组)整体上是一致的。pandas中的某些部分,比如groupby函数,在与Categorical对象协同工作时性能更好。还有一些函数可以利用ordered标识。

1.使用pandas.qcut分箱函数,结果会返回pandas. Categorical。(见图12-10)

图12-10:pandas.qcut分箱函数

:虽然样本的四分位数有用,但是在生成一份报告时,四分位数就没有四分位数名称有用了,通过在qcut函数中使用labels参数来实现这个功能。

2.使用groupby来提取一些汇总统计值(见图12-11)

       被标记的bins分类数据并不包含数据中箱体边界的相关信息

图12-11:使用groupby提取汇总值

12.1.3.1 使用分类获得更高性能

       如果你在特定的数据集上做了大量的分析,将数据转换为分类数据可以产生大幅的性能提升。DateFrame中一列的分类版本通常也会明显使用更少内存(见图12-12)

图12-12:分类转换性能


:使用分类对象进行GroupBy操作明显更快,这是因为底层算法使用了基于整数代码的数组而不是字符串数组。


12.1.4 分类方法

Series包含的分类数据拥有一些特殊方法,这些方法类似于Series.str的特殊字符串方法。这些方法提供了快捷访问类别和代码的方式。

1.特殊属性cat提供了对分类方法的访问(见图12-13)

图12-13:cat属性

2.set_categories方法

      当知道该数据的实际类别集合超出了数据中观察到的四个值。我们可以使用set_categories方法来改变类别。(见图12-14)

图12-14:set_categories方法

3.使用remove_unused_categories方法来去除未观察到的类别

       在大型数据集中,分类数据经常被用于节省内存和更高性能的便捷工具。在你过滤了一个大型DataFrame或Series之后,很多类别将不会出现在数据中。为了帮助解决这个问题,我们可以使用remove_unused_categories方法来去除未观察到的类别。(见图12-15)

图12-15:remove_unused_categories方法

:分类方法列表(见表12-1)

表12-1:pandas中Series的分类方法

12.1.4.1 创建用于建模的虚拟变量

       当你使用统计数据或机器学习工具时,通常会将分类数据转换为虚拟变量,也称为one-hot编码。这会产生一个DataFrame,每个不同的类别都是它的一列。这些列包含一个特定类别的出现次数,否则为0。

pandas.get_dummies函数将一维的分类数据转换为一个包含虚拟变量的DataFrame。(见图12-16)

图12-16:pandas.get_dummies函数

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,492评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,048评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,927评论 0 358
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,293评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,309评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,024评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,638评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,546评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,073评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,188评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,321评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,998评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,678评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,186评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,303评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,663评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,330评论 2 358

推荐阅读更多精彩内容