登录注册写文章

新手向——理解Pandas的Transform

新手向——理解Pandas的Transform

Understanding the Transform Function in Pandas

Pandas具有丰富的功能让我们探索，transform就是其中之一，利用它可以高效地汇总数据。
Python Data Science Handbook 是一个关于pandas的优秀资源。
在该书的描述中，transform是与groupby（pandas中最有用的操作之一）组合使用的。一般情况下，我们在groupby之后使用aggregate , filter 或 apply来汇总数据，transform可能稍难理解。
该书对应的github资源 jupyter notebooks里的内容可能对理解transform的独特作用有所帮助。

aggregation会返回数据的缩减版本，而transformation能返回完整数据的某一变换版本供我们重组。这样的transformation，输出的形状和输入一致。一个常见的例子是通过减去分组平均值来居中数据。

接下来，我们利用简单的11行销售数据实际做一个其它用途的例子来掌握transform。

实践

加载数据

import pandas as pd

df = pd.read_excel("sales_transactions.xlsx")

查看数据

可以看到数据包含了不同的订单（order），以及订单里的不同商品的数量（quantity）、单价（unit price）和总价（ext price）
现在我们的任务是为数据表添加一列，表示不同商品在所在订单的价钱占比。
首先我们要获得每个订单的总花费。groupby可以实现。

df.groupby('order')["ext price"].sum()

order
10001     576.12
10005    8185.49
10006    3724.49
Name: ext price, dtype: float64

这些新得到的数据如何与原始数据帧结合呢？

order_total = df.groupby('order')["ext price"].sum().rename("Order_Total").reset_index()

df_1 = df.merge(order_total)
df_1["Percent_of_Order"] = df_1["ext price"] / df_1["Order_Total"]

我们实现了目标（还多加了一列订单总额），但是步骤比较多，有没有更好的办法呢？——主角出场:）

Transform

我们先试下

df.groupby('order')["ext price"].transform('sum')

0      576.12
1      576.12
2      576.12
3     8185.49
4     8185.49
5     8185.49
6     8185.49
7     8185.49
8     3724.49
9     3724.49
10    3724.49
11    3724.49
dtype: float64

不再是只显示3个订单的对应项，而是保持了与原始数据集相同数量的项目，这样就很好继续了。这就是transform的独特之处。

df["Order_Total"] = df.groupby('order')["ext price"].transform('sum')
df["Percent_of_Order"] = df["ext price"] / df["Order_Total"]

甚至可以一步：

df["Percent_of_Order"] = df["ext price"] / df.groupby('order')["ext price"].transform('sum')

最后编辑于：2017.12.06 12:37:20

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

译:理解pandas中的tansform函数
原文链接：Understanding the Transform Function in Pandas 引言 pa...
mhye阅读 3,447评论 1赞 3
Python 数据科学入门教程：Pandas
Python 和 Pandas 数据分析教程原文：Data Analysis with Python and P...
布客飞龙阅读 83,456评论 9赞 225

《利用Python进行数据分析·第2版》第12章 pandas高级应用
第1章准备工作第2章 Python语法基础，IPython和Jupyter第3章 Python的数据结构、函数和...
SeanCheney阅读 39,589评论 9赞 48
Pandas-高级操作知识点总结
本文的Pandas知识点包括：1、合并数据集2、重塑和轴向旋转3、数据转换4、数据聚合 1、合并数据集 Panda...
文哥的学习日记阅读 9,492评论 0赞 13
《利用Python进行数据分析·第2版》第10章数据聚合与分组运算
第1章准备工作第2章 Python语法基础，IPython和Jupyter第3章 Python的数据结构、函数和...
SeanCheney阅读 59,238评论 10赞 90

友情链接更多精彩内容

72赞73赞

赞赏

手机看全文