dplyr包

1.包和数据的安装

安装dplyr包

install.packages("dplyr")
library(dplyr)

安装hflights包,该软件包中的飞机航班数据将用于本文中dplyr包各个函数的演示

install.packages("hflights")
library(hflights)

通过以下代码,简单了解示例数据集hflights

class(hflights);dim(hflights)
head(hflights)


在利用dplyr包处理数据之前,需要将数据装载成dplyr包的一个特定对象类型(data frame tbl / tbl_df),也称作 tibble 类型,可以用 tbl_df函数将数据框类型的数据装载成 tibble 类型的数据对象

packageVersion("dplyr")
attach(hflights)
tbl_hflights<-tbl_df(hflights)
class(tbl_hflights)
tbl_hflights

输出结果如下:可以看到,将hflights转换成tbl_df类型后,R语言打印数据集tbl_hflights的数据时,仅打印了适合屏幕宽度的数据,屏幕显示不下的剩余两个变量的数据(CancellationCode , Diverted )并没有打印出来,这使得屏幕上打印出来的数据可读性更强,也更美观。此外,还在每一列变量名称的下面显示了变量的类型。



2.数据记录筛选filter

filter() 返回行的子集,按照指定的条件筛选符合条件中逻辑判断要求的数据记录,类似于SQL语句中的where语句中的筛选条件,但不能筛选某些变量

# 选择2011年1月而且起飞时间为1400的所有数据记录
filter(tbl_hflights,Year == 2011, Month == 1, DepTime == 1400)
# '且'的关系除了","也可以用&符号表示,也就是列出的所有条件同时满足
filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime == 1400)
# 选择起飞时间在1400之前的航班
filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime <= 1400)
# '或'的关系用|符号表示。选择起飞时间为1400或者1430的航班,且UniqueCarrier为'AA'
filter(tbl_hflights,Year == 2011 & Month == 1 & (DepTime == 1400 | DepTime == 1430) & UniqueCarrier == 'AA')

3.变量筛选select

select()返回列的子集,filter()函数只能将指定条件的观测筛选出来,并不能筛选出只关心的变量,为了弥补这个缺陷,select函数可以通过指定列名选择指定的变量进行分析,而且比subset()函数更灵活,而且选择变量的同时也可以重新命名变量。
如果需要对数据集中的某些变量进行重命名的话,可直接使用rename()函数,语法如下:rename(tbl, newname = oldname,...)
如果剔除某些变量的话,只需在变量前加上负号“-”。
Dplyr包有下列辅助函数,用于在select()中选择变量:
starts_with("X"): 以 "X"开头的变量名
ends_with("X"): 以 "X"结束的变量名
contains("X"): 包含 "X"的变量名
matches("X"): 匹配正则表达式“x"的变量名
num_range("x", 1:5): 变量名为 x01, x02, x03, x04 and x05
one_of(x): 出现在字符向量x中的所有变量名
everything(): 选择所有变量,一般调整数据集中变量顺序时使用
在select()中直接使用列时不需要引用"",但使用上述辅助函数时必须引用""

# 选择指定的变量
select(tbl_hflights,Year,Month,DayofMonth,FlightNum,Distance)
# 用类似于生成数字序列的方式选择变量
# 选择Year开始一直到ArrTime结束的所有变量
select(tbl_hflights,Year:ArrTime)
# 也可以按照倒过来的顺序选择
select(tbl_hflights,ArrTime:Year)
# 除了选择变量,也可以删除指定的变量
select(tbl_hflights,-Year,-Month,-DayofMonth,-FlightNum,-Distance)
select(tbl_hflights,-(Year:ArrTime))

4.数据排序arrange

arrange根据一个或多个变量对行排序,默认为升序排列,也可以对列名加desc()进行降序排序。

#抽取数据
tbl_hflights1<-select(filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime == 1400),Year:ArrTime,AirTime)
tbl_hflights1
# 将数据按照ArrTime升序排序
arrange(tbl_hflights1,ArrTime)
# 将数据先按照AirTime降序,再按照ArrTime升序排列
arrange(tbl_hflights1,desc(AirTime),ArrTime)

5.变量变换/重构mutate

mutate函数可以基于原始变量重新计算得到新的变量,应用指定的公式,派生新的数据列,或重写已经存在的数据列,在做数据分析预处理的时候经常会用到该功能。允许在同一次调用中使用新变量来创建下一个变量。例如:mutate(my_df, x = a + b, y = x + c)
同样可以进行数据扩展的还有transmute()函数,与mutate()函数不同的是,该函数扩展新变量的同时,将删除所有原始变量。
由ArrTime-DepTime得到航班的飞行所用时长,并存储在DurTime变量中,飞行所用时长(单位:分钟)的计算方式为:小时数*60+分钟数,同时将飞行的分钟数,换算成秒。优势在于可以在同一语句中对刚增加的列进行操作。

tbl_hflights2<-mutate(tbl_hflights1,
                      DurTime = (as.numeric(substr(ArrTime,1,2)) - as.numeric(substr(DepTime,1,2)))*60 + as.numeric(substr(ArrTime,3,4)) ,
                      Dur_Time1 = DurTime * 60)
tbl_hflights2

6.数据汇总summarize

summarize函数实现对数据的汇总,比如求和、计算平均值等。
对tbl对象执行聚合运算,还可以结合group_by()函数实现分组聚合,单独对每个分组进行聚合运算。
min():返回最小值
max():返回最大值
mean():返回均值
sum():返回总和
sd():返回标准差
var():方差
diff(range()):x值的范围
median():返回中位数
quantile(x, p):x的第P个分位数
IQR():返回四分位极差
n():返回观测个数
n_distinct():统计数据集中无重复值的数量
first():返回第一个观测
last():返回最后一个观测
nth():返回n个观测

# 计算航班平均飞行时长
summarize(tbl_hflights2,avg_dur = mean(DurTime),sum_air = sum(AirTime))

7.数据分组group_by

group_by函数实现对数据进行分组,结合summarize函数,可以对分组数据进行汇总统计。然后可以使用ungroup函数,移除tbl对象的分组状态

# 按照航空公司分组进行汇总
summarise(group_by(tbl_hflights, UniqueCarrier), 
          m = mean(AirTime,na.rm = TRUE), 
          sd = sd(AirTime,na.rm = TRUE), 
          cnt = n(), 
          me = median(AirTime,na.rm = TRUE))

8.多步操作连接符%>%管道函数

是最常用的一个操作符,就是把左侧准备的数据或表达式,传递给右侧的函数调用或 表达式进行运行,可以连续操作就像一个链条一样。
使用时把数据名作为开头,然后依次对此数据进行多步操作。
这种运算符的编写方式使得编程者可以按数据处理时的思路写代码, 一步一步操作不断叠加,在程序上就可以非常清晰的体现数据处理的步骤与背后的逻辑。

# 对数据进行分布处理:分组-汇总-排序-打印
tbl_hflights %>%
  group_by(UniqueCarrier) %>%
  summarize(m = mean(AirTime,na.rm = TRUE), sd = sd(AirTime,na.rm = TRUE)) %>%
  arrange(desc(m),sd) %>%
  head(10)

9.挑选随机样本sample_n, sample_frac

sample_n随机选出指定个数(样本容量)的样本数;sample_frac随机选出指定百分比(占整个数据集总体百分比)的样本数。

# 随机抽取10个样本
sample_n(tbl_hflights,10)
# 随机抽取10%的样本
tbl_hflights %>% 
  sample_frac(0.1) %>%
  select(Year:UniqueCarrier) %>%
  group_by(UniqueCarrier) %>%
  summarize(m = mean(ArrTime,na.rm = TRUE), cnt = n()) %>%
  arrange(desc(m))

10.

可以通过如下名称查看dplyr包中自带的参考资料

# 查看自带的参考资料
vignette(package = "dplyr")
vignette("introduction", package = "dplyr")

11.连接操作 join

inner_join#內连
left_join#左连
right_join#右连
full_join#全连
semi_join#返回能够与y表匹配的x表所有记录
anti_join#返回无法与y表匹配的x表的所有记录

df <- data.frame(x = c('a','b','c','a','b','e','d','f'), y = c(1,2,3,4,5,6,7,8))
df
df2 <- data.frame(x = c('a','b','c'), z = c('A','B','C'))
df2

#转换为tbl对象
df2tbl <- tbl_df(df)
df2tbl
df2tbl2 <- tbl_df(df2)
df2tbl2

inner_join(x = df2tbl, y = df2tbl2, by = 'x')
semi_join(x = df2tbl, y = df2tbl2, by = 'x')
anti_join(x = df2tbl, y = df2tbl2, by = 'x')

12.数据合并bind_rows/cols

在R基础包里有cbind()函数和rbind()函数实现按列的方向进行数据合并和按行的方向进行数据合并,而在dplyr包中也添加了类似功能的函数,它们是bind_cols()函数和bind_rows()函数。

mydf1 <- data.frame(x = c(1,2,3,4), y = c(10,20,30,40))
mydf1
mydf2 <- data.frame(x = c(5,6), y = c(50,60))
mydf2
mydf3 <- data.frame(z = c(100,200,300,400))
mydf3
#bind_rows()函数需要两个数据框或tbl对象有相同的列数
bind_rows(mydf1, mydf2)
#bind_cols()函数则需要两个数据框或tbl对象有相同的行数
bind_cols(mydf1, mydf3)

13.集合操作set

#取两个集合的交集
intersect(x,y, ...)
#取两个集合的并集,并进行去重
union(x,y, ...)
#取两个集合的并集,不去重
union_all(x,y, ...)
#取两个集合的差集,在x中不在y中
setdiff(x,y, ...)
#判断两个集合是否相等
setequal(x, y, ...)

14.连接数据库数据

如果需要获取MySQL数据库中的数据时,可以直接使用dplyr包中的src_mysql()函数,其功能类似于RMySQL包。src_mysql()函数语法如下:

src_mysql(dbname, host = NULL, port = 0L, user = "root", password = "",...)

通过以上方式连接MySQL数据库后,使用tbl()函数获取数据集,tbl()函数语法如下:

tbl(src,from = '')

其中src为src_mysql()函数对象,from为SQL语句

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容