关键词
R包,dplyr (基础函数,实用技能,处理关系数据)
Tips
- R 包 —— 多个函数的集合,具有详细的说明和示例。(本次以 dplyr 为例)
-
Rstudio 最重要的两个配置文件:
(1).Renviron # 设置 R 的环境变量
(2).Rprofile # 代码文件(如果在启动时找到这个文件,就替我们先运行一遍
今日笔记
<一> 安装和加载R包
1. 镜像设置
(1)初级模式—— Rstudio→Tools 配置
(2)升级模式—— options 函数
-
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
# 对应清华源 -
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
# 对应中科大源 -
options()$repo
/options()$BioC_mirror
# 查看镜像
(3)高级模式—— R的配置文件 ‘.Rprofile’
file.edit('~/.Rprofile')
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
- ‘保存’ → ‘重启 Rstudio’ → ‘options’命令
2. 安装
-
install.packages(" ")
# 安装的包存于CRAN网站 -
BiocManager::install(" ")
# 安装的包存于Biocductor - !一直失败报错,后面检查发现IE浏览器不能上网,太狡猾了也= = 按网上的办法说要关闭代理服务器,我的设置里显示的就是关闭状态,一不做二不休我给打开又给关了就能用了...(人间疑惑 = =
3. 加载
- 使用
library( )
/require( )
命令
- 操作中示例数据为内置数据集 iris 的简化版
test<- iris[c(1:2,51:52,101:102),]
<二> dplyr 五个基础函数
1. mutate()
# 新增列
2. select()
# 按列筛选
(1)select(test,num)
# 按列号筛选
(2)按列名筛选
3. filter()
# 筛选行
4. arrange()
# 按某一列或某几列对整个表格进行排序
-
arrange(test,Sepal.Length)
# 默认从小到大排序
-
arrange(test,desc(Sepal.Length))
# 用desc从大到小
- 两者组合
5. summarise( ):
# 汇总(结合group_by
使用实用性强
<三> dplyr 两个实用技能
1. 管道操作
-
%>%
(cmd/ctr + shift + M) - 加载任意一个 tidyverse 包即可用管道符号
2. count
命令统计某列的 unique 值
<四> dplyr 处理关系数据
- 将两个表进行连接(注:不要引入factor)
1. inner_join()
# 内连, 取交集
2. left_join()
# 左连
3. full_join()
# 全连
4. semi_join()
# 半连接(返回能够与y表匹配的x表所有记录
5. anti_join()
# 反连接(返回无法与y表匹配的x表的所有记录
6. 简单合并
(1)bind_rows()
# 按列数将行合并
(2)bind_cols()
# 按行数将列合并
一句废话
眼神不好的人认真学习着实可以训练耐心...