《学习小组Day6笔记--Ace》

R语言用来制作丰富的图表和对Biocductor上面R包。以下以dplyr为例,讲一下R包。

一、安装和加载R包

1.镜像设置

options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))

options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") 

2.安装加载

(1)安装命令是install.packages(“包”)或者BiocManager::install(“包”)。取决于你要安装的包存在于CRAN网站还是Biocductor,存在于哪里?可以谷歌搜到。

install.packages("dplyr")

(2)加载命令

library(包)或require(包)

library(dplyr)

二、dplyr五个基础函数

1.mutate() 新增列

如:mutate(test, new = Sepal.Length * Sepal.Width)


新增了 Sepal.Length * Sepal.Width这一列

2.select() 按列筛选

(1)按列号筛选

如:select(test,1)     select(test,c(1,5))     select(test,Sepal.Length)

(2)按列名筛选

A、select(test, Petal.Length, Petal.Width)

B、vars <- c("Petal.Length","Petal.Width")

     select(test, one_of(vars))

3.filter() 筛选行

A、filter(test, Species =="setosa")

B、filter(test, Species =="setosa"&Sepal.Length >5)

C、filter(test, Species %in% c("setosa","versicolor"))

4.arrange() 按某1列或某几列对整个表格进行排序

A、arrange(test, Sepal.Length)  #默认从小到大排序

B、arrange(test, desc(Sepal.Length))  #用desc从大到小

5.summarise() 汇总—对数据进行汇总操作,结合group_by使用实用性强

A、summarise(test, mean(Sepal.Length), sd(Sepal.Length))

计算Sepal.Length的平均值和标准差

B、先按照Species分组,计算每组Sepal.Length的平均值和标准差

a、group_by(test, Species)

b、summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))

三、dplyr两个实用技能

1:管道操作 %>% (cmd/ctr + shift + M)—(加载任意一个tidyverse包即可用管道符号)

test %>% 

      group_by(Species) %>% 

      summarise(mean(Sepal.Length), sd(Sepal.Length))


2:count统计某列的unique值

count(test,Species)



四、dplyr处理关系数据( 将2个表进行连接,注意:不要引入factor )

options(stringsAsFactors = F)

test1 <- data.frame(x = c('b','e','f','x'), 

                    z = c("A","B","C",'D'),

                    stringsAsFactors = F)


test2 <- data.frame(x = c('a','b','c','d','e','f'), 

                    y = c(1,2,3,4,5,6),

                    stringsAsFactors = F)

1.內连inner_join,取交集

inner_join(test1, test2, by = "x")


2.左连left_join

3.全连full_join

4.半连接:返回能够与y表匹配的x表所有记录semi_join


5.反连接:返回无法与y表匹配的x表的所记录anti_join


6.简单合并

在相当于base包里的cbind()函数和rbind()函数

注意,bind_rows()函数需要两个表格列数相同,而bind_cols()函数则需要两个数据框有相同的行数

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容