0911 Chapter 3 使用dplyr进行数据转换-p42第4题不太理解

1. p34变量类型

int, dbl, chr, dttm, lgl, fctr , date

2. dplyr基础

  • 核心函数包括: filter(), arrange(),select(), mutate(), summarize(),group_by(),

3.filter()

- 比较运算符

<,<=,>,>=,!=,==

-逻辑运算符

  • &,|,!,&&,||
  • nov_dec <- filter(flights, month %in% c(11,12))
    x %in%y ,取出x是y中的一个值的所有行

缺失值

用NA表示,可用is.na()确认,具有 可传染性
filter()只能筛选出值为TRUE的行
filter(df,is.na() | x >1)

p38练习题

1.

a. filter(flights, arr_delay >=120)
b. View(flights)
filter(flights, dest == 'IAH' | dest == 'HOU')
c. nycflights13::airlines
filter(flights, carrier %in% c('UA','AA','DL'))
d. summer.flights <- filter(flights, month %in% c(7,8,9) ||答案:filter(flights, month >= 7, month <= 9)
e. filter(flights, dep_delay == 0 & arr_delay >120) || 答案: filter(flights, dep_delay <= 0, arr_delay > 120)
f. 此题理解为出发时间至少延误一小时,但是到达时间延误时间少了半小时 filter(flights, dep_delay >= 60, dep_delay - arr_delay > 30)
g.filter(flights, dep_time >= 0 & dep_time <=6) ❌ ||注意到午夜的特殊性,答案:filter(flights, dep_time <= 600 | dep_time == 2400) 或者 filter(flights, dep_time %% 2400 <= 600)

2.

?between()后,This is a shortcut for x >= left & x <= right, implemented efficiently in C++ for local values, and translated to the appropriate SQL for remote tables.
改写前面的2g答案 filter(flights, between (dep_time, 0,6)) ❌ 答案:filter(flights, between(month, 7, 9))

3.

filter(flights, is.na(dep_time == NA))filter(flights, is.na(dep_time)) 到达时间也有缺失值,应该是取消的航班

4.

所有值的0次方都是1
NA | TRUE, 逻辑或运算,只要有一个值为真,结果即为真
FALSE & NA 逻辑与运算,有一个值为假,结果即为假
for all finite, numeric x,x0 = 0,但NA * 0 不等于0,因为,x * ∞ and x−∞ is undefined. R represents undefined results as NaN, which is an abbreviation of “[not a number]

4. arrange()

常用函数

arrange(flights,year, month,day)
arrange(flights,desc(arr_delay)) # 降序排列

p40 练习题

1.

arrange(flights, desc(is.na(dep_time)), dep_time)

2.

2.

理解为出发时间耽误最长,arrange(flights, desc(dep_time))
2013年1月9日,9:00应该出发的,HA 51, JFK to HNL,延迟了1301分钟。
出发时间最早,arrange(flights, dep_time) || 答案不对吧

3.

速度最快应该是 2013年5月25日17点出发的
arrange(flights, desc(distance/air_time)) ||答案:arrange(flights, distance / air_time * 60)

4.

arrange(flights, desc(air_time)) ||
答案:arrange(flights, desc(distance)),飞行时间最长不应该是 air_time么。

5. select()

找到感兴趣的变量,select(),快速生成一个有用变量子集。

  • 函数多次计入一个变量名,会自动去重复,只保留第一次
  • select(flights,year,month,day)
  • select(flights, year:day)
    -select(flghts, -(year:day)) #选择不在“year”和”day“之间的所有列
  • 辅助函数
    -默认忽略大小写,如需修改,select(flights, contains("TIME", ignore.case = FALSE))

-starts_with("abc"), ends_with("xyz"), contains("ijk"),matches

  • rename(flights, tail_num = tailnum)
  • select(flights, time_hour,air_time,everything()) # 把几个变量移到数据框开头

p42 练习题

1.

  • select(flights, dep_time, dep_delay,arr_time,arr_delay) || 答案:select(flights, "dep_time", "dep_delay", "arr_time", "arr_delay") # Specifying all the variables as strings.
    select(flights, 4, 5, 6, 9) # 使用列的序号,因为列的位置常变动,这种做法不是很推荐。
    select(flights, one_of(c("dep_time", "dep_delay", "arr_time", "arr_delay"))) #几个变量存储在向量中。
variables <- c("dep_time", "dep_delay", "arr_time", "arr_delay")
select(flights, one_of(variables))

select(flights, starts_with("dep_"), starts_with("arr_"))
select(flights, matches("^(dep|arr)_(time|delay)$"))

2.

不会发生什么,select()函数会自动忽略重复
select(flights, year, month, day, year, year)

3.

见上面。

4.

没明白说啥
是说虽然代码是大写,依然选择出了小写的列?

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,524评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,869评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,813评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,210评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,085评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,117评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,533评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,219评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,487评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,582评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,362评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,218评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,589评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,899评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,176评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,503评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,707评论 2 335

推荐阅读更多精彩内容

  • 写作于我来说,就是一件闭门造车的事情,由于人生阅历不够丰富,只有通过不断的阅读来充实自己。但有时却是茫然的,我平时...
    神月新一阅读 681评论 9 8
  • 1.使用Xcode软件。Xcode是一个苹果系统上的集成开发环境(IDE),就是说用Xcode就能编写C语言程序,...
    笑看醉餘鉎阅读 8,932评论 0 1
  • 周长胜 大海2018年1月8到14日 周检视 一 健康 早起7天, 平均起床时?时间5:40分, 打卡记录最早5:...
    策划运营I周长胜阅读 314评论 1 2
  • 中国人的春节,张灯结彩,家家团聚,热闹无比。曾有段子调侃――过年就是平日里穿着光鲜的jack,rose又回到村里,...
    锄地无声阅读 339评论 0 1