学习小组Day6笔记--小黄

学习R包

安装和加载R包

1.镜像设置
(国内镜像下载快很多)

file.edit('~/.Rprofile')#打开文件编辑器,编辑器中输入以下两行代码,保存,再重启Rstudio即可
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) #对应清华源
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") #对应中科大源

当然有可能会失败,当你检查options()$repos发现不是清华源的话大概就是失败了。。。
这种情况下就只能每次安装之前将后两句直接输在代码框里来配置镜像。
2.安装
安装命令
install.packages(“包”)(在CRAN网站)
BiocManager::install(“包”)(在Bioconductor网站)
3.加载

library(包)#任选其一
require(包)#同上

4.以dplyr的安装为例

options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) 
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") 
install.packages("dplyr")#dplyr在CRAN上,我们之前已经配置好的话,只需要输install和library两句即可
library(dplyr)

本次的示例数据是iris:

test <- iris[c(1:2,51:52,101:102),]#就是那个鸢尾花啦~

是这样的数据框哦:


test.png

dplyr的五个基础函数

(以下的代码行我都加了备注,没备注的都是自动显示啦)

1.mutate(),新增列

mutate(test,new=Sepal.Length * Sepal.Width) #新增一个名为new的列,数据为花萼长*花萼宽
  Sepal.Length Sepal.Width Petal.Length Petal.Width    Species   new
1          5.1         3.5          1.4         0.2     setosa 17.85
2          4.9         3.0          1.4         0.2     setosa 14.70
3          7.0         3.2          4.7         1.4 versicolor 22.40
4          6.4         3.2          4.5         1.5 versicolor 20.48
5          6.3         3.3          6.0         2.5  virginica 20.79
6          5.8         2.7          5.1         1.9  virginica 15.66

2.select(),按列筛选
既可以按列号又可以按列名

select(test,1)#筛选出第一列
    Sepal.Length
1            5.1
2            4.9
51           7.0
52           6.4
101          6.3
102          5.8
select(test,c(1,5))#筛选出第一列和第五列
    Sepal.Length    Species
1            5.1     setosa
2            4.9     setosa
51           7.0 versicolor
52           6.4 versicolor
101          6.3  virginica
102          5.8  virginica
select(test,Sepal.Length)#筛选出花萼长
    Sepal.Length
1            5.1
2            4.9
51           7.0
52           6.4
101          6.3
102          5.8
select(test,Petal.Length, Petal.Width)#筛选出花瓣长和花瓣宽
    Petal.Length Petal.Width
1            1.4         0.2
2            1.4         0.2
51           4.7         1.4
52           4.5         1.5
101          6.0         2.5
102          5.1         1.9
vars<-c('Petal.Length',"Petal.Width")#给变量vars赋值
select(test,one_of(vars))#筛选vars,one_of是声明选择对象
    Petal.Length Petal.Width
1            1.4         0.2
2            1.4         0.2
51           4.7         1.4
52           4.5         1.5
101          6.0         2.5
102          5.1         1.9

3.filter(),筛选行

filter(test,Species=="setosa")#筛选出Species列含有setosa的行(不是行名为setosa哦,所以用了==)
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
filter(test,Species=="setosa"&Sepal.Length>5)#筛选出Species列含有含setosa并且花萼长大于5的行
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
filter(test,Species%in% c("setosa","versicolor"))#筛选出Species列含有setosa和versicolor的行
  Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
1          5.1         3.5          1.4         0.2     setosa
2          4.9         3.0          1.4         0.2     setosa
3          7.0         3.2          4.7         1.4 versicolor
4          6.4         3.2          4.5         1.5 versicolor

4.arrange(),按列排序,
默认由小到大排列,需倒序用desc()
注意,可以按多列排序,但是除非上一列排序过程中存在等值数据,则使用下一字段的排序规则,否则按上一字段排序。

arrange(test,Sepal.Length)#按花萼长从小到大排序
  Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
1          4.9         3.0          1.4         0.2     setosa
2          5.1         3.5          1.4         0.2     setosa
3          5.8         2.7          5.1         1.9  virginica
4          6.3         3.3          6.0         2.5  virginica
5          6.4         3.2          4.5         1.5 versicolor
6          7.0         3.2          4.7         1.4 versicolor
arrange(test,desc(Sepal.Length))#按花萼长从大到小排序
  Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
1          7.0         3.2          4.7         1.4 versicolor
2          6.4         3.2          4.5         1.5 versicolor
3          6.3         3.3          6.0         2.5  virginica
4          5.8         2.7          5.1         1.9  virginica
5          5.1         3.5          1.4         0.2     setosa
6          4.9         3.0          1.4         0.2     setosa
arrange(test,Sepal.Length,Sepal.Width)#先按花萼长再按花萼宽排序,看上文注意,可以解释为什么和直接按花萼长排序一样
  Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
1          4.9         3.0          1.4         0.2     setosa
2          5.1         3.5          1.4         0.2     setosa
3          5.8         2.7          5.1         1.9  virginica
4          6.3         3.3          6.0         2.5  virginica
5          6.4         3.2          4.5         1.5 versicolor
6          7.0         3.2          4.7         1.4 versicolor
arrange(test,Sepal.Width,Sepal.Length)#先按花萼宽,后按花萼长排序,和直接按花萼宽排序一样(同上注意),和上一组做区别
  Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
1          5.8         2.7          5.1         1.9  virginica
2          4.9         3.0          1.4         0.2     setosa
3          6.4         3.2          4.5         1.5 versicolor
4          7.0         3.2          4.7         1.4 versicolor
5          6.3         3.3          6.0         2.5  virginica
6          5.1         3.5          1.4         0.2     setosa

5.summarise():汇总

summarise(test,mean(Sepal.Length),sd(Sepal.Length))#计算花萼长的平均值和标准差
  mean(Sepal.Length) sd(Sepal.Length)
1           5.916667        0.8084965
group_by(test,Species)#先按照Species分组
# A tibble: 6 x 5
# Groups:   Species [3]
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species   
         <dbl>       <dbl>        <dbl>       <dbl> <fct>     
1          5.1         3.5          1.4         0.2 setosa    
2          4.9         3            1.4         0.2 setosa    
3          7           3.2          4.7         1.4 versicolor
4          6.4         3.2          4.5         1.5 versicolor
5          6.3         3.3          6           2.5 virginica 
6          5.8         2.7          5.1         1.9 virginica 
summarise(group_by(test,Species),mean(Sepal.Length),sd(Sepal.Length))#再计算每组花萼长的平均值和标准差
`summarise()` ungrouping output (override with `.groups` argument)
# A tibble: 3 x 3
  Species    `mean(Sepal.Length)` `sd(Sepal.Length)`
  <fct>                     <dbl>              <dbl>
1 setosa                     5                 0.141
2 versicolor                 6.7               0.424
3 virginica                  6.05              0.354

dplyr的两个实用技能

1.管道操作%>%

(加载任意一个tidyverse包即可用管道符号)

test %>% #这句是打的
group_by(Species) %>% #巧了这句也是
summarise(mean(Sepal.Length), sd(Sepal.Length))
`summarise()` ungrouping output (override with `.groups` argument)
# A tibble: 3 x 3
  Species    `mean(Sepal.Length)` `sd(Sepal.Length)`
  <fct>                     <dbl>              <dbl>
1 setosa                     5                 0.141
2 versicolor                 6.7               0.424
3 virginica                  6.05              0.354

2.count统计某列的unique值

count(test,Species)#统计Species出现过的unique值
     Species n
1     setosa 2
2 versicolor 2
3  virginica 2

用dplyr处理关系数据

将2个表进行连接,注意:不要引入factor

options(stringsAsFactors = F)#防止字符串转换为factor
test1 <- data.frame(x = c('b','e','f','x'), z = c("A","B","C",'D'), stringsAsFactors = F)
#把这个数据框赋给test1
test1
  x z
1 b A
2 e B
3 f C
4 x D
test2 <- data.frame(x = c('a','b','c','d','e','f'), y = c(1,2,3,4,5,6),stringsAsFactors = F)
#把这个数据框赋给test2
test2 
  x y
1 a 1
2 b 2
3 c 3
4 d 4
5 e 5
6 f 6
inner_join(test1, test2, by = "x")#内连,取交集
  x z y
1 b A 2
2 e B 5
3 f C 6
left_join(test1, test2, by = 'x')#左连,以左边的为准(这里是test1的x列)
  x z  y
1 b A  2
2 e B  5
3 f C  6
4 x D NA
left_join(test2, test1, by = 'x')#同上,这里是test2的x列
  x y    z
1 a 1 <NA>
2 b 2    A
3 c 3 <NA>
4 d 4 <NA>
5 e 5    B
6 f 6    C
full_join( test1, test2, by = 'x')#全连,以test1的x为基准,全部连接
  x    z  y
1 b    A  2
2 e    B  5
3 f    C  6
4 x    D NA
5 a <NA>  1
6 c <NA>  3
7 d <NA>  4
semi_join(x = test1, y = test2, by = 'x')#取test1的x并与test2的y表匹配,返回所有符合的x值并输出x,y
  x z
1 b A
2 e B
3 f C
anti_join(x = test2, y = test1, by = 'x')#反取,不取test1的x与test2的y匹配的值,然后输出
  x y
1 a 1
2 c 3
3 d 4

下面是简单合并:

相当于base包里的cbind()函数和rbind()函数;
注意,bind_rows()函数需要两个表格列数相同,而bind_cols()函数则需要两个数据框有相同的行数

test1 <- data.frame(x = c(1,2,3,4), y = c(10,20,30,40))#给test1重赋值
test1
  x  y
1 1 10
2 2 20
3 3 30
4 4 40
test2 <- data.frame(x = c(5,6), y = c(50,60))#给test2重赋值
test2
  x  y
1 5 50
2 6 60
test3 <- data.frame(z = c(100,200,300,400))#给test3赋值
test3
    z
1 100
2 200
3 300
4 400
> bind_rows(test1, test2)#相同列数的表格(数据框)合并
  x  y
1 1 10
2 2 20
3 3 30
4 4 40
5 5 50
6 6 60
> bind_cols(test1, test3)#相同行数的表格(数据框)合并
  x  y   z
1 1 10 100
2 2 20 200
3 3 30 300
4 4 40 400

今天就这样啦~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,324评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,356评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,328评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,147评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,160评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,115评论 1 296
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,025评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,867评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,307评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,528评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,688评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,409评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,001评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,657评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,811评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,685评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,573评论 2 353

推荐阅读更多精彩内容