一、安装和加载R包
- 镜像设置
镜像设置.png
- 安装R包
- R包存在与CRAN:install.packages(“R包名称”)
- R包存在于Biocductor:BiocManager::install(“R包名称”)
安装R包.png
- 加载R包
加载R包.png
二、dplyr(数据操作R包)五个基础函数
- 新增列:mutate()
新增列.png
- 按列筛选:select()
筛选列.png
- 筛选行:filter()
筛选行.png
- 按某1列或某几列对整个表格进行排序:arrange()
表格排序.png
- 汇总分析:summarise(),再加上分组group_by()即可实现各组内分析
汇总分析.png
三、dplyr两个扩展技巧
- 管道操作
- 能够通过管道将数据从一个函数传给另外一个函数,从而用若干函数构成的管道依次变换你的数据
- 管道运算符号为%>%(Windows快捷键为Shift+CTRL+M),其意思是将左边的运算结果,以输入的方式传递给右边的函数
管道操作.png
- count() :统计某列的unique值
统计某一列各元素出现次数.png
四、dplyr处理关系数据-类似于Excel的VLOOKUP
- 取两个数据在某一变量上的的交集:inner_join(X,Y,by = '某一变量')
找出两个数据集在某一变量上的交集.png
- 将两个数据集以左侧数据集为标准取交集:left_join(X,Y, by = '某一变量')
左连.png
- 将两个数据集整体合并:full_join(X,Y, by = '某一变量')
全连.png
- 返回能够与Y表匹配的X表所有记录:semi_join(X, Y, by = '某一变量')
半合并.png
- 返回无法与Y表匹配的X表的所有记录:anti_join(X, Y, by = '某一变量')
反连接.png
- 简单合并
- bind_rows()函数需要两个表格列数相同
- bind_cols()函数则需要两个数据框有相同的行数
简单合并.png