分组计算描述性统计量函数—by()函数

《R语言实战》这本书上是这样描述by()函数的:

使用by()分组计算描述性统计量,它可以一次返回若干个统计量。格式为:
by(data, INDICES, FUN)
其中data是一个数据框或矩阵;INDICES是一个因子或因子组成的列表,定义了分组;FUN是任意函数。

简单点说by(data, INDICES, FUN)函数的典型用法: 是将data数据框或矩阵按照INDICES因子水平进行分组,然后对每组应用FUN函数。
是不是没懂?反正看完后我没懂~


下面我们通过实例来理解下by()函数:
我们假设2019年第二季度Jimmy老师收了五个学徒

  • 他们姓名分别是:xg;xj;hj;wh;xs
  • 他们年纪分别是:23;24;25;26;27
  • 他们的性别分别是:male;female;female;male;female

将以上学徒信息构建成数据框,存到biotrainee变量名中:

biotrainee <- data.frame(name = c('xg','xj','hj','wh','xs'),
                         gender = c('male','female','female','male','female'),
                         ages = c(23,24,25,26,27))
> biotrainee  #看下数据框内容
  name gender ages
1   xg   male   23
2   xj female   24
3   hj female   25
4   wh   male   26
5   xs female   27

学徒信息纯属虚构,如有雷同纯属巧合

我们想要将所有学徒按照性别分组,并分别计算每组学徒年龄的平均值,就可以通过by()函数来实现,我们体会一下:by(biotrainee,biotrainee$gender,function(x) mean(x[,2]))

> by(biotrainee,biotrainee$gender,function(x) mean(x[,3]))
biotrainee$gender: female
[1] 25.33333
----------------------------------------------------------------------------- 
biotrainee$gender: male
[1] 24.5

by做了什么?将第一个参数(学徒姓名)按照第二个参数(性别)进行分组,然后每组应用第三个参数所定义的函数(求每组第三列即年龄的平均值)。
还没懂?没关系,来个示意图:


熟悉split()函数的可以看出,按照gender列分组那步,split()函数可以到达同样的效果:split(biotrainee,biotrainee$gender)

> split(biotrainee,biotrainee$gender)
$`female`
  name gender ages
2   xj female   24
3   hj female   25
5   xs female   27

$male
  name gender ages
1   xg   male   23
4   wh   male   26

split()函数分好组之后,我们再用lapply就可以看到:

> lapply(split(biotrainee,biotrainee$gender),function(x) mean(x[,3]))
$`female`
[1] 25.33333

$male
[1] 24.5

lapply()中的 “l” 代表list,它接受list作为输入,并将指定的操作应用于列表中的所有元素。在list上逐个元素调用FUN函数。可以用于data.frame上,因为data.frame是一种特殊形式的list

到这里by()函数的用法就讲完了,只讲基本用法,不讲在实际数据分析过程中能解决什么问题?还是那句话,不是我的风格~


这几天我在看Jimmy老师在B站上的GEO数据挖掘视频课程,课程里介绍到GEO数据挖掘分析流程:看文章找GSE编号 --> 到GEO数据库搜索下载数据 --> 提取表达矩阵exp --> id转换....
在id转换过程中,经过一系列处理我们得到了ids,它与我们提取的表达矩阵exp的探针顺序一一对应:

> head(ids)
  probe_id    symbol
1  7896759 LINC01128
2  7896761    SAMD11
3  7896779    KLHL17
4  7896798   PLEKHN1
5  7896817     ISG15
6  7896822      AGRN
> head(exp)
        GSM1052615 GSM1052616 GSM1052617 GSM1052618 GSM1052619 GSM1052620
7896759    8.75126    8.61650    8.81149    8.32067    8.41445    8.45208
7896761    8.39069    8.52617    8.43338    9.17284    9.10216    9.14120
7896779    8.20228    8.30886    8.18518    8.13322    8.06453    8.15884
7896798    8.41004    8.37679    8.27521    8.34524    8.35557    8.44409
7896817    7.72204    7.74572    7.78022    7.72308    7.53797    7.73401
7896822    9.19237    9.10929    9.03668    9.94821    9.96994    9.99839

这时,我们就可以对表达矩阵exp进行分组,将同一个symbol所对应的多个探针分成不同的组,并对每组探针进行统计:计算每组中每行探针表达量的平均值(也就是每个探针在6个样本中表达量的均值rowMeans(x)),再取平均值最大的那个探针作为该symbol所对应的唯一探针,我们上面讲的by()函数就可以完成以上操作:

tmp = by(exp,
         ids$symbol,
         function(x) rownames(x)[which.max(rowMeans(x))])
probes = as.character(tmp)

第二个参数ids$symbol定义了分组,将第一参数—exp表达矩阵分成了若干个小矩阵,每个小矩阵里存放着同一个symbol所对应的所有探针。第三个参数是我们自己定义的函数:计算每个小矩阵中每行探针表达量的平均值(也就是每个探针在6个样本中表达量的均值rowMeans(x)),再取平均值最大的那个探针作为该symbol所对应的唯一探针which.max(rowMeans(x))
by()函数就可以返回每个分组里的统计结果,即每个symbol所对应的唯一探针IDprobe_id,存放在tmp里。用probes = as.character(tmp)将结果变为纯字符型向量:

> head(tmp)
INDICES
     A1CF       A2M     A2ML1   A3GALT2    A4GALT     A4GNT 
"7933640" "7960947" "7953775" "7914643" "8076497" "8090955" 
> head(probes)
[1] "7933640" "7960947" "7953775" "7914643" "8076497" "8090955"
> 
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,366评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,521评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,689评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,925评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,942评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,727评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,447评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,349评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,820评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,990评论 3 337
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,127评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,812评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,471评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,017评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,142评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,388评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,066评论 2 355

推荐阅读更多精彩内容