transform 函数 agg 函数和apply函数的用法辨析


transform 函数 agg 函数和apply函数的用法辨析

学完pandas的基础操作后,对于group by + agg函数,和group by + tranform / apply函数的用法仍然不是很熟悉,并且apply函数和agg函数的用法似乎很类似,但并不清楚其中的区别,因此在网上收集了一些关于这两个函数的用法相关资料,帮助自己更好的理解和应用。

1、group by + agg函数

首先导入pandas包,导入数据iris;

# 用agg函数做一些分类聚合,agg是将一个函数应用在一个数列上,返回一个标量的值

# 对species分组,对两个特征做统计,用的是不同的函数

# 在特定轴(列)上应用一或多个操作(函数)

2、group by+ apply函数

# 用apply函数做分组统计,apply是将一个数据分拆-应用-汇总,它会将当前分组后的数据一起传入,可以返回多维数据

# 在不同分组上应用‘func’函数,然后将结果组合起来。其中‘func’函数必须将dataframe作为它的第一个参数

3、group by + transform函数

transform作用于数据框自身,并且返回变换后的值。返回的对象和原对象拥有相同数目的行,但可以扩展列。注意返回的对象不是就地修改了原对象,而是创建了一个新对象。也就是说原对象没变。transform运行的函数生成了一个标量值,而这个标量值在组内被广播了。

# 调用函数在每个分组上产生一个与原df相同索引的DataFrame,返回与原来对象拥有相同索引且已填充了转换后的值的DataFrame。

# 返回的值要么是与输入子DataFrame拥有相同形状的DataFrame,要么是可以广播成为原来输入子DataFrame形状大小的标量值。

附:关于apply函数和agg函数用法的回答——来自 stack overflow

某同学问:I can't figure out the difference between Pandas .aggregate and .apply functions.

回答:

1、apply applies the function to each group (your Species). Your function returns 1, so you end up with 1 value for each of 3 groups.

2、agg aggregates each column (feature) for each group, so you end up with one value per column per group.

3、agg() gives the flexibility of applying multiple functions at once, or pass a list of function to each column.Also, applying different functions at once to different columns of dataframe.That means you have pretty much control over each column with each operation.

翻译过来即为:

1、apply函数是把某功能应用到每一个分组里,你自定义的功能返回什么,apply函数就会将这个结果匹配给你每一个分组

2、agg函数会将每一个特征(也就是你表格中的每列)都匹配到你的group里,所以最终的返回的结果就是一行数据就匹配一个分组

3、agg()函数具有很高的灵活性,它可以一次性将多个功能(或者直接传递一个功能列表)到每一列数据,同时也可应用到数据框的每个不同的列。这意味着我们可以对数据列有更好的掌控性

So, .agg() could be really handy at handling the DataFrameGroupBy objects, as compared to .apply(). But, if you are handling only pure dataframe objects and not DataFrameGroupBy objects, then apply() can be very useful, as apply() can apply a function along any axis of the dataframe.(总结:如果是指处理纯数据模式的数据框时,不需要做分组,那么apply函数会很好用,apply函数可以沿着行或者列来应用某些功能,非常灵活)

三个方法中,apply是最灵活的,但是对于分组数据的聚合,用agg是最方便的,对于分组转换和展开,transform是最方便的,各有所长。(来自网络)

此外,apply 可以返回标量、Series、dataframe——取决于之前用什么object调用了apply 方法;而 transform 只能返回一个类似于数组的序列,例如一维的 Series、array、list,并且一定要和原始组有同样的长度,否则会引发错误。transform一次只能计算一列。

以上行文如有错误歧义之处,请各位同学指出,避免误导他人,谢谢大家!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352