1.包和数据的安装
安装dplyr包
install.packages("dplyr")
library(dplyr)
安装hflights包,该软件包中的飞机航班数据将用于本文中dplyr包各个函数的演示
install.packages("hflights")
library(hflights)
通过以下代码,简单了解示例数据集hflights
class(hflights);dim(hflights)
head(hflights)
在利用dplyr包处理数据之前,需要将数据装载成dplyr包的一个特定对象类型(data frame tbl / tbl_df),也称作 tibble 类型,可以用 tbl_df函数将数据框类型的数据装载成 tibble 类型的数据对象
packageVersion("dplyr")
attach(hflights)
tbl_hflights<-tbl_df(hflights)
class(tbl_hflights)
tbl_hflights
输出结果如下:可以看到,将hflights转换成tbl_df类型后,R语言打印数据集tbl_hflights的数据时,仅打印了适合屏幕宽度的数据,屏幕显示不下的剩余两个变量的数据(CancellationCode , Diverted )并没有打印出来,这使得屏幕上打印出来的数据可读性更强,也更美观。此外,还在每一列变量名称的下面显示了变量的类型。
2.数据记录筛选filter
filter() 返回行的子集,按照指定的条件筛选符合条件中逻辑判断要求的数据记录,类似于SQL语句中的where语句中的筛选条件,但不能筛选某些变量
# 选择2011年1月而且起飞时间为1400的所有数据记录
filter(tbl_hflights,Year == 2011, Month == 1, DepTime == 1400)
# '且'的关系除了","也可以用&符号表示,也就是列出的所有条件同时满足
filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime == 1400)
# 选择起飞时间在1400之前的航班
filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime <= 1400)
# '或'的关系用|符号表示。选择起飞时间为1400或者1430的航班,且UniqueCarrier为'AA'
filter(tbl_hflights,Year == 2011 & Month == 1 & (DepTime == 1400 | DepTime == 1430) & UniqueCarrier == 'AA')
3.变量筛选select
select()返回列的子集,filter()函数只能将指定条件的观测筛选出来,并不能筛选出只关心的变量,为了弥补这个缺陷,select函数可以通过指定列名选择指定的变量进行分析,而且比subset()函数更灵活,而且选择变量的同时也可以重新命名变量。
如果需要对数据集中的某些变量进行重命名的话,可直接使用rename()函数,语法如下:rename(tbl, newname = oldname,...)
如果剔除某些变量的话,只需在变量前加上负号“-”。
Dplyr包有下列辅助函数,用于在select()中选择变量:
starts_with("X"): 以 "X"开头的变量名
ends_with("X"): 以 "X"结束的变量名
contains("X"): 包含 "X"的变量名
matches("X"): 匹配正则表达式“x"的变量名
num_range("x", 1:5): 变量名为 x01, x02, x03, x04 and x05
one_of(x): 出现在字符向量x中的所有变量名
everything(): 选择所有变量,一般调整数据集中变量顺序时使用
在select()中直接使用列时不需要引用"",但使用上述辅助函数时必须引用""
# 选择指定的变量
select(tbl_hflights,Year,Month,DayofMonth,FlightNum,Distance)
# 用类似于生成数字序列的方式选择变量
# 选择Year开始一直到ArrTime结束的所有变量
select(tbl_hflights,Year:ArrTime)
# 也可以按照倒过来的顺序选择
select(tbl_hflights,ArrTime:Year)
# 除了选择变量,也可以删除指定的变量
select(tbl_hflights,-Year,-Month,-DayofMonth,-FlightNum,-Distance)
select(tbl_hflights,-(Year:ArrTime))
4.数据排序arrange
arrange根据一个或多个变量对行排序,默认为升序排列,也可以对列名加desc()进行降序排序。
#抽取数据
tbl_hflights1<-select(filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime == 1400),Year:ArrTime,AirTime)
tbl_hflights1
# 将数据按照ArrTime升序排序
arrange(tbl_hflights1,ArrTime)
# 将数据先按照AirTime降序,再按照ArrTime升序排列
arrange(tbl_hflights1,desc(AirTime),ArrTime)
5.变量变换/重构mutate
mutate函数可以基于原始变量重新计算得到新的变量,应用指定的公式,派生新的数据列,或重写已经存在的数据列,在做数据分析预处理的时候经常会用到该功能。允许在同一次调用中使用新变量来创建下一个变量。例如:mutate(my_df, x = a + b, y = x + c)
同样可以进行数据扩展的还有transmute()函数,与mutate()函数不同的是,该函数扩展新变量的同时,将删除所有原始变量。
由ArrTime-DepTime得到航班的飞行所用时长,并存储在DurTime变量中,飞行所用时长(单位:分钟)的计算方式为:小时数*60+分钟数,同时将飞行的分钟数,换算成秒。优势在于可以在同一语句中对刚增加的列进行操作。
tbl_hflights2<-mutate(tbl_hflights1,
DurTime = (as.numeric(substr(ArrTime,1,2)) - as.numeric(substr(DepTime,1,2)))*60 + as.numeric(substr(ArrTime,3,4)) ,
Dur_Time1 = DurTime * 60)
tbl_hflights2
6.数据汇总summarize
summarize函数实现对数据的汇总,比如求和、计算平均值等。
对tbl对象执行聚合运算,还可以结合group_by()函数实现分组聚合,单独对每个分组进行聚合运算。
min():返回最小值
max():返回最大值
mean():返回均值
sum():返回总和
sd():返回标准差
var():方差
diff(range()):x值的范围
median():返回中位数
quantile(x, p):x的第P个分位数
IQR():返回四分位极差
n():返回观测个数
n_distinct():统计数据集中无重复值的数量
first():返回第一个观测
last():返回最后一个观测
nth():返回n个观测
# 计算航班平均飞行时长
summarize(tbl_hflights2,avg_dur = mean(DurTime),sum_air = sum(AirTime))
7.数据分组group_by
group_by函数实现对数据进行分组,结合summarize函数,可以对分组数据进行汇总统计。然后可以使用ungroup函数,移除tbl对象的分组状态
# 按照航空公司分组进行汇总
summarise(group_by(tbl_hflights, UniqueCarrier),
m = mean(AirTime,na.rm = TRUE),
sd = sd(AirTime,na.rm = TRUE),
cnt = n(),
me = median(AirTime,na.rm = TRUE))
8.多步操作连接符%>%管道函数
是最常用的一个操作符,就是把左侧准备的数据或表达式,传递给右侧的函数调用或 表达式进行运行,可以连续操作就像一个链条一样。
使用时把数据名作为开头,然后依次对此数据进行多步操作。
这种运算符的编写方式使得编程者可以按数据处理时的思路写代码, 一步一步操作不断叠加,在程序上就可以非常清晰的体现数据处理的步骤与背后的逻辑。
# 对数据进行分布处理:分组-汇总-排序-打印
tbl_hflights %>%
group_by(UniqueCarrier) %>%
summarize(m = mean(AirTime,na.rm = TRUE), sd = sd(AirTime,na.rm = TRUE)) %>%
arrange(desc(m),sd) %>%
head(10)
9.挑选随机样本sample_n, sample_frac
sample_n随机选出指定个数(样本容量)的样本数;sample_frac随机选出指定百分比(占整个数据集总体百分比)的样本数。
# 随机抽取10个样本
sample_n(tbl_hflights,10)
# 随机抽取10%的样本
tbl_hflights %>%
sample_frac(0.1) %>%
select(Year:UniqueCarrier) %>%
group_by(UniqueCarrier) %>%
summarize(m = mean(ArrTime,na.rm = TRUE), cnt = n()) %>%
arrange(desc(m))
10.
可以通过如下名称查看dplyr包中自带的参考资料
# 查看自带的参考资料
vignette(package = "dplyr")
vignette("introduction", package = "dplyr")
11.连接操作 join
inner_join#內连
left_join#左连
right_join#右连
full_join#全连
semi_join#返回能够与y表匹配的x表所有记录
anti_join#返回无法与y表匹配的x表的所有记录
df <- data.frame(x = c('a','b','c','a','b','e','d','f'), y = c(1,2,3,4,5,6,7,8))
df
df2 <- data.frame(x = c('a','b','c'), z = c('A','B','C'))
df2
#转换为tbl对象
df2tbl <- tbl_df(df)
df2tbl
df2tbl2 <- tbl_df(df2)
df2tbl2
inner_join(x = df2tbl, y = df2tbl2, by = 'x')
semi_join(x = df2tbl, y = df2tbl2, by = 'x')
anti_join(x = df2tbl, y = df2tbl2, by = 'x')
12.数据合并bind_rows/cols
在R基础包里有cbind()函数和rbind()函数实现按列的方向进行数据合并和按行的方向进行数据合并,而在dplyr包中也添加了类似功能的函数,它们是bind_cols()函数和bind_rows()函数。
mydf1 <- data.frame(x = c(1,2,3,4), y = c(10,20,30,40))
mydf1
mydf2 <- data.frame(x = c(5,6), y = c(50,60))
mydf2
mydf3 <- data.frame(z = c(100,200,300,400))
mydf3
#bind_rows()函数需要两个数据框或tbl对象有相同的列数
bind_rows(mydf1, mydf2)
#bind_cols()函数则需要两个数据框或tbl对象有相同的行数
bind_cols(mydf1, mydf3)
13.集合操作set
#取两个集合的交集
intersect(x,y, ...)
#取两个集合的并集,并进行去重
union(x,y, ...)
#取两个集合的并集,不去重
union_all(x,y, ...)
#取两个集合的差集,在x中不在y中
setdiff(x,y, ...)
#判断两个集合是否相等
setequal(x, y, ...)
14.连接数据库数据
如果需要获取MySQL数据库中的数据时,可以直接使用dplyr包中的src_mysql()函数,其功能类似于RMySQL包。src_mysql()函数语法如下:
src_mysql(dbname, host = NULL, port = 0L, user = "root", password = "",...)
通过以上方式连接MySQL数据库后,使用tbl()函数获取数据集,tbl()函数语法如下:
tbl(src,from = '')
其中src为src_mysql()函数对象,from为SQL语句