《学习小组Day6笔记--Ace》

R语言用来制作丰富的图表和对Biocductor上面R包。以下以dplyr为例，讲一下R包。

一、安装和加载R包

1.镜像设置

options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))

options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")

2.安装加载

（1）安装命令是install.packages(“包”)或者BiocManager::install(“包”)。取决于你要安装的包存在于CRAN网站还是Biocductor，存在于哪里？可以谷歌搜到。

install.packages("dplyr")

（2）加载命令

library(包)或require(包)

library(dplyr)

二、dplyr五个基础函数

1.mutate() 新增列

如：mutate(test, new = Sepal.Length * Sepal.Width)

新增了 Sepal.Length * Sepal.Width这一列

2.select() 按列筛选

(1)按列号筛选

如：select(test,1) select(test,c(1,5)) select(test,Sepal.Length)

(2)按列名筛选

A、select(test, Petal.Length, Petal.Width)

B、vars <- c("Petal.Length","Petal.Width")

select(test, one_of(vars))

3.filter() 筛选行

A、filter(test, Species =="setosa")

B、filter(test, Species =="setosa"&Sepal.Length >5)

C、filter(test, Species %in% c("setosa","versicolor"))

4.arrange() 按某1列或某几列对整个表格进行排序

A、arrange(test, Sepal.Length) #默认从小到大排序

B、arrange(test, desc(Sepal.Length)) #用desc从大到小

5.summarise() 汇总—对数据进行汇总操作,结合group_by使用实用性强

A、summarise(test, mean(Sepal.Length), sd(Sepal.Length))

计算Sepal.Length的平均值和标准差

B、先按照Species分组，计算每组Sepal.Length的平均值和标准差

a、group_by(test, Species)

b、summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))

三、dplyr两个实用技能

1：管道操作 %>% (cmd/ctr + shift + M)—（加载任意一个tidyverse包即可用管道符号）

test %>%

group_by(Species) %>%

summarise(mean(Sepal.Length), sd(Sepal.Length))

2：count统计某列的unique值

count(test,Species)

四、dplyr处理关系数据（将2个表进行连接，注意：不要引入factor ）

options(stringsAsFactors = F)

test1 <- data.frame(x = c('b','e','f','x'),

z = c("A","B","C",'D'),

stringsAsFactors = F)

test2 <- data.frame(x = c('a','b','c','d','e','f'),

y = c(1,2,3,4,5,6),

stringsAsFactors = F)

1.內连inner_join,取交集

inner_join(test1, test2, by = "x")

2.左连left_join

3.全连full_join

4.半连接：返回能够与y表匹配的x表所有记录semi_join

5.反连接：返回无法与y表匹配的x表的所记录anti_join

6.简单合并

在相当于base包里的cbind()函数和rbind()函数

注意，bind_rows()函数需要两个表格列数相同，而bind_cols()函数则需要两个数据框有相同的行数

《学习小组Day6笔记--Ace》

一、安装和加载R包

二、dplyr五个基础函数

三、dplyr两个实用技能

四、dplyr处理关系数据（ 将2个表进行连接，注意：不要引入factor ）

推荐阅读更多精彩内容

四、dplyr处理关系数据（将2个表进行连接，注意：不要引入factor ）