dplyr包是生信分析处理数据时非常常用的包,另一个tidyverse包也是常用的,后者包含前者,在加载后者之后可以不加载dplyr包、
- 今天主要学习dplyr包
下载
- 首先,先配置镜像,所谓镜像就是原代码在外网,但国内有网站copy了一下,那这个网站叫作那个外网的镜像(个人理解),其次R包,其实是已经打包好的一堆代码文件,只要加载就可以通过参数调节使用
镜像设置
- 主要是让我们下载R包不需要跑外网上下,只需要设置一下默认的放置下载地址的文件,就能改变每次的下载索址
- 打开.Rprofile文件,这个文件是放镜像用的
- 输入
options("repos"=c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror = "https://mirrors.ustc.edu.cn/bioc/")
-
保存,退出,重开(或者直接重置)
-
检查是否保存了镜像
- 如果找不到上述文件,或者无法保存,可以在每次运行代码文件前先运行两个options
下载及安装
- R包默认的安装是在R文件夹下的library文件夹中
- R包的安装命令是
install.packages("英文包名")#或者
BiocManager::install("英文包名")
这两个的主要区别是下载的地方不一样,至于什么包需要在什么地方下载,可以自行用浏览器查找
-
我比较常用的方法是需要某个包时,在浏览器中输入包名,然后在对应网站直接下载包的压缩包到单独的文件夹中,再打开Rstudio进行安装,具体过程如下
- 这样就自动以压缩包的名字安装到library文件夹下了
加载
- 加载包的方法有两种
library(包)#或
require(包)
函数的使用
- 以dplyr包为例,iris的部分数据为测试数据
options("repos"=c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror = "https://mirrors.ustc.edu.cn/bioc/")
#如果上述文件保存了的可以不用这两句
install.packages("dplyr")
library(dplyr)
test<-iris[c(1:2,51:52,101:102),]#意为iris数据框的第1~2行的所有列,51~52的行的所有列和101~102行的所有列
- 接下来熟悉dplyr几个非常常用的函数
- mutate——新增列
mutate(test,new=Sepal.Length *Sepal.Width)
#在test数据框中新增一列,列名为new,列的值为Sepal.Length乘Sepal.Width
- select——按列筛选
select(test,1)
select(test,c(1,5))
select(test,Sepal.Length)
- 按列号筛选(上)
select(test,Petal.Length,Petal.Width)
vars<-c("Petal.Length","Petal.Width")
select(test,one_of(vars))
-
按列名筛选(上)
- filter——筛选行
filter(test,Species=="setosa")
filter(test,Species=="setosa"&Sepal.Length>5)
filter(test,Species %in% c("setosa","versicolor))
- arrange——按某一列或某几列对表格进行排序
arrange(test, Sepal.Length)#默认从小到大排序
arrange(test, desc(Sepal.Length))#用desc从大到小
- summarise——汇总
summarise(test, mean(Sepal.Length), sd(Sepal.Length))# 计算Sepal.Length的平均值和标准差
按照Species分组
group_by(test, Species)
#计算每组Sepal.Length的平均值和标准差
summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))
- 管道操作——%>%
- 快捷键ctrl+shift+M
test %>%
group_by(Species) %>%
summarise(mean(Sepal.Length), sd(Sepal.Length))
#将5中的三条语句合一起
- 统计某列unique值——count
count(test,Species)
- 将两个表进行连接(建立一个数据框)
test1 <- data.frame(x =
c('b','e','f','x'),
z = c("A","B","C",'D'),
stringsAsFactors = F)
- 内连取交集
inner_join(test1, test2, by = "x")
- 左连
left_join(test1, test2, by = 'x')
- 全连
full_join( test1, test2, by = 'x')
- 返回x表中与y表相匹配的元素
anti_join(x = test2, y = test1, by = 'x')
- 合并
bind_rows(test1, test2)#按行合并,要求列数相同,行数相加
bind_cols(test1, test3)#按列合并,要求行数相同,列数相加