D4 dplyr包的使用

dplyr包是生信分析处理数据时非常常用的包,另一个tidyverse包也是常用的,后者包含前者,在加载后者之后可以不加载dplyr包、

  • 今天主要学习dplyr包

下载

  • 首先,先配置镜像,所谓镜像就是原代码在外网,但国内有网站copy了一下,那这个网站叫作那个外网的镜像(个人理解),其次R包,其实是已经打包好的一堆代码文件,只要加载就可以通过参数调节使用

镜像设置

  • 主要是让我们下载R包不需要跑外网上下,只需要设置一下默认的放置下载地址的文件,就能改变每次的下载索址
  1. 打开.Rprofile文件,这个文件是放镜像用的
  2. 输入
options("repos"=c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror = "https://mirrors.ustc.edu.cn/bioc/")
  1. 保存,退出,重开(或者直接重置)


    镜像设置
  2. 检查是否保存了镜像


    检查
  3. 如果找不到上述文件,或者无法保存,可以在每次运行代码文件前先运行两个options

下载及安装

  • R包默认的安装是在R文件夹下的library文件夹中
  • R包的安装命令是
install.packages("英文包名")#或者
BiocManager::install("英文包名")

这两个的主要区别是下载的地方不一样,至于什么包需要在什么地方下载,可以自行用浏览器查找

  • 我比较常用的方法是需要某个包时,在浏览器中输入包名,然后在对应网站直接下载包的压缩包到单独的文件夹中,再打开Rstudio进行安装,具体过程如下


    安装
选择压缩包安装
选择压缩包所在位置
  • 这样就自动以压缩包的名字安装到library文件夹下了

加载

  • 加载包的方法有两种
library(包)#或
require(包)

函数的使用

  • 以dplyr包为例,iris的部分数据为测试数据
options("repos"=c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror = "https://mirrors.ustc.edu.cn/bioc/")
#如果上述文件保存了的可以不用这两句
install.packages("dplyr")
library(dplyr)
test<-iris[c(1:2,51:52,101:102),]#意为iris数据框的第1~2行的所有列,51~52的行的所有列和101~102行的所有列
  • 接下来熟悉dplyr几个非常常用的函数
  1. mutate——新增列
mutate(test,new=Sepal.Length *Sepal.Width)
#在test数据框中新增一列,列名为new,列的值为Sepal.Length乘Sepal.Width
mutate
  1. select——按列筛选
select(test,1)
select(test,c(1,5))
select(test,Sepal.Length)
  • 按列号筛选(上)
select(test,Petal.Length,Petal.Width)
vars<-c("Petal.Length","Petal.Width")
select(test,one_of(vars))
  • 按列名筛选(上)


    select

    select
  1. filter——筛选行
filter(test,Species=="setosa")
filter(test,Species=="setosa"&Sepal.Length>5)
filter(test,Species %in% c("setosa","versicolor))
filter
  1. arrange——按某一列或某几列对表格进行排序
arrange(test, Sepal.Length)#默认从小到大排序
arrange(test, desc(Sepal.Length))#用desc从大到小
  1. summarise——汇总
summarise(test, mean(Sepal.Length), sd(Sepal.Length))# 计算Sepal.Length的平均值和标准差
summarise

按照Species分组

group_by(test, Species)
#计算每组Sepal.Length的平均值和标准差
summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))
group
  1. 管道操作——%>%
  • 快捷键ctrl+shift+M
test %>% 
  group_by(Species) %>% 
  summarise(mean(Sepal.Length), sd(Sepal.Length))
#将5中的三条语句合一起
三合一
  1. 统计某列unique值——count
count(test,Species)
  1. 将两个表进行连接(建立一个数据框)
test1 <- data.frame(x = 
                    c('b','e','f','x'), 
                    z = c("A","B","C",'D'),
                    stringsAsFactors = F)
  1. 内连取交集
inner_join(test1, test2, by = "x")
  1. 左连
left_join(test1, test2, by = 'x')
  1. 全连
full_join( test1, test2, by = 'x')
连接
  1. 返回x表中与y表相匹配的元素
anti_join(x = test2, y = test1, by = 'x')
  1. 合并
bind_rows(test1, test2)#按行合并,要求列数相同,行数相加
bind_cols(test1, test3)#按列合并,要求行数相同,列数相加
合并
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容