R包学习
安装和加载R包
如果需要某个计算方法,去处理数据时,需要首先安装和加载相应的安装包下载方式install.packages("某个包")
加载下载包的功能
library(相应的包) or require(包)
安装和加载的总过程
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
install.packages("dplyr")
library(dplyr)
dplyr基础函数
1.mutate(),新增列
()里面去定义新增哪个数据框里面的内容,后用,隔开,定义该新函数应该是以何种运算来出现eg:mutate(test,new=ab),那么新的一列就是以ab来计算得到的。
2.select()选择某一列
eg:select(test,1)选择test表的第一列,select(test,c(1,5))选择test表的第1列和第5列,也可以直接加表头,他是指符合表头的那一列。
3.filter()筛选行
filter(test, a == "beauty")是指筛选出test表格中,a列,中出现beauty单词的显示出来
4.arrange()用于对数据表格的排列
arrange(test, 第一列名称)是以默认的方式从小到大的顺序排列
arrange(test, desc(a))test表格中以a列为排列标准,从大到小的排列
5.`summarise():汇总
summarise(test, mean(a), sd(Sepal.Length))# 计算a的平均值和标准差
dplyr实用技能
count(test,a)
计算a列的某个重复出现了几次
dplyr处理关系数据
inner_join(test1, test2, by = "x")取交集
left_join(test1, test2, by = 'x')左连
full_join( test1, test2, by = 'x')全连
semi_join(x = test1, y = test2, by = 'x')半连接
anti_join(x = test2, y = test1, by = 'x')反连接
bind_rows()函数是两个表格列数相同相连接,而bind_cols()函数则是两个数据框有相同的行数相连接