dplyr包是生信分析处理数据时非常常用的包，另一个tidyverse包也是常用的，后者包含前者，在加载后者之后可以不加载dplyr包、

今天主要学习dplyr包

下载

首先，先配置镜像，所谓镜像就是原代码在外网，但国内有网站copy了一下，那这个网站叫作那个外网的镜像（个人理解），其次R包，其实是已经打包好的一堆代码文件，只要加载就可以通过参数调节使用

镜像设置

主要是让我们下载R包不需要跑外网上下，只需要设置一下默认的放置下载地址的文件，就能改变每次的下载索址

打开.Rprofile文件，这个文件是放镜像用的
输入

options("repos"=c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror = "https://mirrors.ustc.edu.cn/bioc/")

保存，退出，重开（或者直接重置）

镜像设置
检查是否保存了镜像

检查
如果找不到上述文件，或者无法保存，可以在每次运行代码文件前先运行两个options

下载及安装

R包默认的安装是在R文件夹下的library文件夹中
R包的安装命令是

install.packages("英文包名")#或者
BiocManager::install("英文包名")

这两个的主要区别是下载的地方不一样，至于什么包需要在什么地方下载，可以自行用浏览器查找

我比较常用的方法是需要某个包时，在浏览器中输入包名，然后在对应网站直接下载包的压缩包到单独的文件夹中，再打开Rstudio进行安装，具体过程如下

安装

选择压缩包安装

选择压缩包所在位置

这样就自动以压缩包的名字安装到library文件夹下了

加载

加载包的方法有两种

library(包)#或
require(包)

函数的使用

以dplyr包为例，iris的部分数据为测试数据

options("repos"=c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror = "https://mirrors.ustc.edu.cn/bioc/")
#如果上述文件保存了的可以不用这两句
install.packages("dplyr")
library(dplyr)
test<-iris[c(1:2,51:52,101:102),]#意为iris数据框的第1~2行的所有列，51~52的行的所有列和101~102行的所有列

接下来熟悉dplyr几个非常常用的函数

mutate——新增列

mutate(test,new=Sepal.Length *Sepal.Width)
#在test数据框中新增一列，列名为new，列的值为Sepal.Length乘Sepal.Width

mutate

select——按列筛选

select(test,1)
select(test,c(1,5))
select(test,Sepal.Length)

按列号筛选（上）

select(test,Petal.Length,Petal.Width)
vars<-c("Petal.Length","Petal.Width")
select(test,one_of(vars))

按列名筛选（上）

select

select

filter——筛选行

filter(test,Species=="setosa")
filter(test,Species=="setosa"&Sepal.Length>5)
filter(test,Species %in% c("setosa","versicolor))

filter

arrange——按某一列或某几列对表格进行排序

arrange(test, Sepal.Length)#默认从小到大排序
arrange(test, desc(Sepal.Length))#用desc从大到小

summarise——汇总

summarise(test, mean(Sepal.Length), sd(Sepal.Length))# 计算Sepal.Length的平均值和标准差

summarise

按照Species分组

group_by(test, Species)
#计算每组Sepal.Length的平均值和标准差
summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))

group

管道操作——%>%

快捷键ctrl+shift+M

test %>% 
  group_by(Species) %>% 
  summarise(mean(Sepal.Length), sd(Sepal.Length))
#将5中的三条语句合一起

三合一

统计某列unique值——count

count(test,Species)

将两个表进行连接（建立一个数据框）

test1 <- data.frame(x = 
                    c('b','e','f','x'), 
                    z = c("A","B","C",'D'),
                    stringsAsFactors = F)

内连取交集

inner_join(test1, test2, by = "x")

左连

left_join(test1, test2, by = 'x')

全连

full_join( test1, test2, by = 'x')

连接

返回x表中与y表相匹配的元素

anti_join(x = test2, y = test1, by = 'x')

合并

bind_rows(test1, test2)#按行合并，要求列数相同，行数相加
bind_cols(test1, test3)#按列合并，要求行数相同，列数相加

合并

D4 dplyr包的使用

D4 dplyr包的使用

下载

镜像设置

下载及安装

加载

函数的使用

按照Species分组

推荐阅读更多精彩内容