第四章 基本数据管理
1.变量的重命名
可以通过函数names( )
来重命名变量。如:
names(leadership)<-"testdate"
2.缺失值
is.na( )
可以用于判断缺失值,如果某个元素是缺失值,将返回TURE。
3.类型转换
判断语句:is.numeric( )
转换语句:as.numeric( )
4.数据排序
order( )
函数默认的排序顺序是升序。
5.数据集的合并
5.1 向数据框添加列
横向合并两个数据框(数据集),使用merge( )
函数。
total<- merge(dataframeA,dataframeB,by="ID")
如果要直接横向合并两个矩阵或数据框,并且不需要指定一个公告索引,可以直接用cbind( )
函数。
total <- cbind(a,b)
5.2 向数据框添加行
纵向 合并两个数据框,使用rbind( )
函数。
total <- rbind(data1,data2)
#两个数据框必须拥有相同的变量,不过顺序不必一定相同。
#如果data1里拥有data2中没有的变量,可以做以下处理:
#删除data1中的多余变量
#在data2中创建追加的变量,值设为NA(缺失)
6.选取数据
subset( )
函数
newdata <- subset(leadership,age >=35 | age < 24,
select=c(q1,q2,q3,q4))
#选择所有age值大于等于35或者age值小于24的行,保留了变量q1到q4
newdata <- subset(leadership,gender=="M" & age > 25,
select=gender:q4)
#选择所有25岁以上的男性,并保留了变量gender到q4(gender、q4和其间所有的列)
#from:to,表示了数据框中变量from到变量to包含的所有变量