一、前言
R包是多个函数的集合,具有详细的说明和示例。
生信必学R语言——含有丰富图表和Biocductor上的生信分析R包。每个包都解决生信的一个流程问题。
二、安装和加载R包
1、镜像设置
- R的配置文件:
.Rprofile
file.edit('~/.Rprofile')
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
- 保存后重启Rstudio,再运行:
options()$repos
和options()$BioC_mirror
2、R包安装和加载命令
-安装:
install.packages(“包”)
BiocManager::install(“包”)
-加载:
library(包)
require(包)
- dplyr示例
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
install.packages("dplyr")
library(dplyr)
- 示例数据——使用内置数据集iris的简化版
test <- iris[c(1:2,51:52,101:102),]
3、dplyr五个基础函数
- mutate(),新增列
mutate(test, new = Sepal.Length * Sepal.Width)
-
select(),按列筛选
-
filter()筛选行
-
arrange(),按某1列或某几列对整个表格进行排序
-
summarise():汇总
三、dplyr两个实用技能
- 管道操作 %>% (ctr + shift + M)
加载任意一个tidyverse包即可用管道符号
-
count统计某列的unique值
四、dplyr处理关系数据
-
内连inner_join,取交集
-
左连left_join
-
全连full_join
-
半连接:返回能够与y表匹配的x表所有记录semi_join
-
反连接:返回无法与y表匹配的x表的所记录anti_join
- 简单合并
注:
bind_rows()
函数需要两个表格列数相同,bind_cols()
函数则需要两个数据框有相同的行数。