长型和宽型数据在数据分析中非常常见。一般人们看到的以行为样本以列为变量的数据为宽型数据,非常适合人类查看和理解。但是在数据分析中,常常需要将数据转换成长型数据才能便于分析和作图。将在以下几个例子中进行理解和介绍。同时使用R中不同的三个包进行长宽数据的转换。
我们先建立一个简单的数据框:
widedata <- data.frame(ID=c(1,1,2,2),
Time=c(1,2,1,2),
x1=c(3,4,5,6),
x2=c(7,8,9,10))
widedata
查看数据框如下:
这是宽型数据,如果还是明白的话,跟长型数据一对比就一目了然了。
1. 用reshape进行数据的长宽转换
Wide to long
library(reshape)
(longdata1 <- melt(widedata,id=c("ID","Time")))
(longdata1 <- melt(widedata,id="ID"))
这两个数据框都是长型数据,根据前几列的信息可以对应到最后数值列的唯一值
reshape包的melt函数使用相对简单,出了第一个对象为数据框,参数一般只有一个,即id,设为id的变量,变量名在转换过程中不变,但是变量的数值会在长型数据中重复出现。
Long to wide
cast(data, formula = ... ~ variable, fun.aggregate=NULL, ..., margins=FALSE, subset=TRUE, df=FALSE, fill=NULL, add.missing=FALSE, value = guess_value(data))
cast函数有参数比较多,这里只展示基本的参数,其中formula是设置如何转换为宽型数据的重要参数,不同的formula转换成的数据可以通过尝试进行理解和体会。
(widedata1 <- cast(longdata1,ID+Time~variable))
(widedata1 <- cast(longdata1,ID~Time+variable))
(widedata1 <- cast(longdata1,ID~variable+Time))
2. 用reshape2进行数据的长宽转换
Wide to long
reshape2同时使用melt函数进行宽到长数据的转换,但是参数略有不同,主要的两个参数是id.vars和measure.vars.
library(reshape2)
(longdata2 <- melt(widedata,id.vars=c("ID","Time"),measure.vars=c("x1","x2")))
得到跟reshape包中melt函数一样的结果。
Long to wide
长型数据到宽型数据的转换,在reshape2中没有cast函数,根据处理数据的不同类型,用acast(vector/matrix/array)和dcast(dataframe)函数取代。
这里我们的数据是数据框,因此使用dcast函数,其中的公式跟cast类似。
(widedata2 <- dcast(longdata2,ID+Time~variable))
(widedata2 <- dcast(longdata2,ID~Time+variable))
3. 用tidyr进行数据的长宽转换
Wide to long
tidyr中的gather函数,跟reshape和reshape2中的melt函数的参数有较大的改变,但是更容易理解。
gather(data, key = "key", value = "value", ..., na.rm = FALSE, convert = FALSE, factor_key = FALSE)
其中的key和value生成新的变量的变量名,...表示可以要进行转换的变量,相当于reshape2中melt函数的measure.vars参数。直接看例子:
library(tidyr)
(longdata3 <- gather(widedata, key = "variable",value ="value", x1:x2 ))
得到跟上面相同的结果,这里variable和value是自己命名的,不同于melt是自动生成的,相对更易于理解。
Long to wide
tidyr中的spread函数,跟cast类似,不过参数与gather相对应
spread(data, key, value, fill = NA, convert = FALSE, drop = TRUE, sep = NULL)
关键的参数是key和value,指定后就可以根据相应的key和value进行长到宽的转换
(widedata3 <- spread(longdata3,key = "variable",value = "value"))
总结
初学者在使用R时,常常对reshape和reshape2有点迷惑,尤其是melt函数名字一模一样,因此容易造成误解,加载了reshape2后发现cast函数不能使用。个人倾向于直接使用gather和spread函数,直接跳过reshape和reshape2的困扰。不过理清楚reshape和reshape2的主要区别,使用起来也不容易混淆。