学习小组Day06 山海 R包

1. 安装和加载R包

1.1.镜像设置
options("repos" = c(CRAN="[https://mirrors.tuna.tsinghua.edu.cn/CRAN/)")) #对应清华源
options(BioC_mirror="[https://mirrors.ustc.edu.cn/bioc/)") #对应中科大源
(1)R的配置文件 .Rprofile:①file.edit('~/.Rprofile')→写入代码→保存
(2)在刚开始运行Rstudio的时候,程序会查看许多配置内容,其中一个就是.Renviron,它是为了设置R的环境变量;.Rprofile就是一个代码文件,如果启动时找到这个文件,那么就替我们先运行一遍(这个过程就是在启动Rstudio时完成的)。
(3)镜像查看:options()$reposoptions()$BioC_mirror

1.2.安装:install.packages(“包”)或者BiocManager::install(“包”)

1.3.加载:library(包)或者require(包)

1.4.示例:
options("repos" = c(CRAN="[https://mirrors.tuna.tsinghua.edu.cn/CRAN/)")) options(BioC_mirror="[https://mirrors.ustc.edu.cn/bioc/)") install.packages("dplyr") library(dplyr)

2. dplyr五个基础函数(示例:test <- iris[c(1:2,51:52,101:102),]

2.1. mutate(),新增列:mutate(test, new = Sepal.Length * Sepal.Width) 新增Sepal长度和宽度相乘的一列

2.2. select(),按列筛选
(1)按列号筛选:select(test,1) 选择第一列;select(test,c(1,5)) 选择第一列和第五列;
(2)按列名筛选:select(test, Petal.Length, Petal.Width)选择Petal.Length, Petal.Width两列;

2.3. filter()筛选行:filter(test, Species == "setosa") 选择setosa物种的行;filter(test, Species == "setosa"&Sepal.Length > 5 ) 选择setosa物种并且Sepal长度大于5的行;filter(test, Species %in% c("setosa","versicolor")) 选择有setosa,versicolor这两个物种的行

2.4. arrange(),按某1列或某几列对整个表格进行排序:arrange(test, Sepal.Length)按Sepal.Length这一列进行排序,默认从小到大;arrange(test, desc(Sepal.Length)) 按Sepal.Length这一列进行排序,desc从大到小

2.5. summarise(),汇总:summarise(test, mean(Sepal.Length), sd(Sepal.Length)) mean平均值,sd标准差 ;group_by(test, Species) 将不同物种的数据分组整理

3. dplyr两个实用技能

3.1. 管道操作 %>% (快捷键ctr + shift + M)

3.2. count统计某列的unique值

4. dplyr处理关系数据

4.1. 內连inner_join:返回两个表中所有相匹配的数据,而舍弃不匹配的数据

4.2. 左连left_join:保留 x 中的所有观测

4.3. 全连full_join:保留 x 和 y 中的所有观测

4.4. 半连接semi_join:返回能够与y表匹配的x表所有记录

4.5. 反连接anti_join:返回无法与y表匹配的x表的所记录

4.6. 简单合并:cbind()函数和rbind()函数
bind_rows()函数需要两个表格列数相同,而bind_cols()函数则需要两个数据框有相同的行数

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容