R语言学习笔记总结
R语言初步-用dplyr进行数据转换
install.packages("tidyverse")
install.packages("nycflights13")#仍然记得要先安装
library(nycflights13)#航班信息文件
library(tidyverse)
?flights#查看数据信息的说明书
flights#查看航班信息
4.使用mutate()函数添加新变量
mutate:变异 ; 突变 ; 改变 ; 数据修改
除了选择现有的列,也可以自己添加新的列,新的列是已有列的函数。
提示:如果数据列数太多,使用view()函数可以在Rstudio里看到所有的列
为了方便,我们可以先创建一个列数少的数据框,比如使用之前讲过的select()函数:
narrow_data <- select(flights,year:day,ends_with("delay"),distance,air_time)
> narrow_data
#运行后查看创建的narrow_data
# A tibble: 336,776 x 7
year month day dep_delay arr_delay distance air_time
<int> <int> <int> <dbl> <dbl> <dbl> <dbl>
1 2013 1 1 2 11 1400 227
2 2013 1 1 4 20 1416 227
3 2013 1 1 2 33 1089 160
4 2013 1 1 -1 -18 1576 183
5 2013 1 1 -6 -25 762 116
6 2013 1 1 -4 12 719 150
7 2013 1 1 -5 19 1065 158
8 2013 1 1 -3 -14 229 53
9 2013 1 1 -3 -8 944 140
10 2013 1 1 -2 8 733 138
# ... with 336,766 more rows
紧接着创建新的列gain和speed
mutate(narrow_data,gain=arr_delay-dep_delay ,speed=distance/air_time*60)
# A tibble: 336,776 x 9
year month day dep_delay arr_delay distance air_time gain speed
<int> <int> <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 2013 1 1 2 11 1400 227 9 370.
2 2013 1 1 4 20 1416 227 16 374.
3 2013 1 1 2 33 1089 160 31 408.
4 2013 1 1 -1 -18 1576 183 -17 517.
5 2013 1 1 -6 -25 762 116 -19 394.
6 2013 1 1 -4 12 719 150 16 288.
7 2013 1 1 -5 19 1065 158 24 404.
8 2013 1 1 -3 -14 229 53 -11 259.
9 2013 1 1 -3 -8 944 140 -5 405.
10 2013 1 1 -2 8 733 138 10 319.
# ... with 336,766 more rows
新创建的列同时也可以使用(但是保留的方法仍然是赋值给某个名称):
mutate(narrow_data,
gain=arr_delay-dep_delay,
hours=air_time/60,
gain_per_hour=gain/hours)
# A tibble: 336,776 x 10
year month day dep_delay arr_delay distance air_time gain hours
<int> <int> <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 2013 1 1 2 11 1400 227 9 3.78
2 2013 1 1 4 20 1416 227 16 3.78
3 2013 1 1 2 33 1089 160 31 2.67
4 2013 1 1 -1 -18 1576 183 -17 3.05
5 2013 1 1 -6 -25 762 116 -19 1.93
6 2013 1 1 -4 12 719 150 16 2.5
7 2013 1 1 -5 19 1065 158 24 2.63
8 2013 1 1 -3 -14 229 53 -11 0.883
9 2013 1 1 -3 -8 944 140 -5 2.33
10 2013 1 1 -2 8 733 138 10 2.3
# ... with 336,766 more rows, and 1 more variable: gain_per_hour <dbl>
由于系统显示限制,最后一列没有展示出来,运行view()函数即可:
示例:
view(mutate(narrow_data,
gain=arr_delay-dep_delay,
hours=air_time/60,
gain_per_hour=gain/hours
)
)
#运行后系统加载完整的数据表
如果只想要保留新的变量,那就使用transmute()函数:
transmute(narrow_data,
gain=arr_delay-dep_delay,
hours=air_time/60,
gain_per_hour=gain/hours
)
#运行后:
# A tibble: 336,776 x 3
gain hours gain_per_hour
<dbl> <dbl> <dbl>
1 9 3.78 2.38
2 16 3.78 4.23
3 31 2.67 11.6
4 -17 3.05 -5.57
5 -19 1.93 -9.83
6 16 2.5 6.4
7 24 2.63 9.11
8 -11 0.883 -12.5
9 -5 2.33 -2.14
10 10 2.3 4.35
# ... with 336,766 more rows
此时参与计算的arr_delay、dep_delay、air_time、hours都消失,只有新转换的gain、hours 、gain_per_hour三列。
mutare()函数可以和前面提到的几个函数结合起来使用。其中进行运算的时候,肯定会涉及到R语言的计算语言,以下列出几个常用的:
- +、—、*、/基本运算
- sum()计算总和
- mean()计算均值
- log(),log2(),log10()
- %/% 整数除法
- %% 求余
- x==y*(x%/% y)+(x%%y) 一个拆分整数的常用表达
举例:
transmute(flights,
dep_time,
hour=dep_time%/%60, #计算了dep_time的小时数量
minute=dep_time%%60 #计算了dep_time的分钟数量
)
#运行:
# A tibble: 336,776 x 3
dep_time hour minute
<int> <dbl> <dbl>
1 517 8 37
2 533 8 53
3 542 9 2
4 544 9 4
5 554 9 14
6 554 9 14
7 555 9 15
8 557 9 17
9 557 9 17
10 558 9 18
# ... with 336,766 more rows
- lag()和lead() 返回一个序列的领先值和滞后值
- cumsum()和cumprod() 累加和、累加积
- cummin()、cummax()、cummean() 累加最小值、累加最大值、计算累加均值
(x <- 1:10)
[1] 1 2 3 4 5 6 7 8 9 10
lag(x)
#运行:
[1] NA 1 2 3 4 5 6 7 8 9
lead(x)
#运行:
[1] 2 3 4 5 6 7 8 9 10 NA
cumsum(x)
#运行:
[1] 1 3 6 10 15 21 28 36 45 55
cumprod(x)
#运行:
[1] 1 2 6 24 120 720 5040 40320 362880 3628800
cummin(x)
#运行:
[1] 1 1 1 1 1 1 1 1 1 1
cummax(x)
#运行:
[1] 1 2 3 4 5 6 7 8 9 10
cummean(x)
#运行:
[1] 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
- <、<=、>、>=、!= 逻辑比较
- log(),log2(),log10()
- min_rank() 排序函数,用于最常规的排秩
- min_rank(desc())则是倒序排秩
注意!min_rank() 是给出每个数据的排名,而不是把数据本身从大到小排列! - row_number()、dense_rank()、percent_rank()、cume_dist()、ntile()等等
y <- c(1,4,6,3,8,4,5,0)
min_rank(y)
#运行:
[1] 2 4 7 3 8 4 6 1
min_rank(desc(y))
#运行:
[1] 7 4 2 6 1 4 3 8
min_rank(y)
#运行:
[1] 2 4 7 3 8 4 6 1
row_number(y)
#运行:
[1] 2 4 7 3 8 5 6 1
dense_rank(y)
#运行:
[1] 2 4 6 3 7 4 5 1
percent_rank(y)
#运行:
[1] 0.1428571 0.4285714 0.8571429 0.2857143 1.0000000 0.4285714 0.7142857 0.0000000
cume_dist(y)
#运行:
[1] 0.250 0.625 0.875 0.375 1.000 0.625 0.750 0.125
ntile(y)
#运行:
Error in ntile(y) : argument "n" is missing, with no default
ntile(y,3)
#运行:
[1] 1 2 3 1 3 2 2 1
函数众多,可以自己在系统中查看帮助文档:
help(ntile)
help(cume_dist)
#运行后系统自动展示函数的基本说明
注意:进行复杂的运算时,形成立刻赋值给新变量的好习惯,便于检查