本文作者:王子一,中南财经政法大学金融学院
文字编辑:崔赵雯
技术总编:余术玲
有些时候大家从网页或者其他途径拿到的数据,作者为了展示数据的美观,通常会采用宽数据格式进行展示,那么什么叫做宽数据呢?pick一个小知识点:
一般情况下,如果当我们拿到这种宽数据,并且需要对其进行转化使用分析时,小白同学通常就会选择用Excel进行手动操作,剪切粘贴剪贴粘贴...披星戴月...将多列数据归到一列中去,结果一眨眼!!你记不清处理到了哪里,两手抓虾只能重新来过。这时,Stata出现了一个简单的命令,简简单单的操作会给你带来极大的便利,它就是stack命令,一个可以完全取代Excel手动操作的数据重整命令,下面我们来展示它的风采。
首先对stack命令进行简单的介绍:
命令的格式:
stack varlist [if] [in] , {into(newvars)|group(#)} [options]
选项 | 描述 |
---|---|
into(newvars) | 数据重整生成的新变量名称 |
group(#) | 重整变量组所需要的组数 |
clear | 从内存中删除数据集 |
wide | 将未在新变量中指定的变量保存在变量组中 |
简单来说,如果我们想要将4个变量放在1列,就以下图4个变量为例:注释:into(newvars)和group(#)只能选择一个
那么,我们的代码如下:
clear
input a b c d
1 2 3 4
5 6 7 8
end
stack a b c d, into(v1)
最终运行结果如图:同样地,如果我们将上面例子中的那4个变量放在2列里面,我们可以这样做:
stack a b c d, into(v1 v2)
或者:
stack a b c d, into(v1-v2)
再或者,也可以等价于我们将4个变量分为2组:
stack a b c d,group(2)
上述代码都符合我们的要求,最终运行结果如下图: 如果说,将4个变量划为3列呢,这是不可以的!因为3不是4的因数,所以不可以进行这样的重整数据。
而wide的用法则是将未在新变量中指定的变量保存在变量组中,以上面的例子为例进行下面的操作:
stack a b a c, into(a bc) clear wide
也就是将未在新变量("a","bc")中指定的变量("b","c")保存在变量组中,运行结果如图所示:以上这些就是stack命令的基本操作啦。
接下来我们分为多对一和多对多这两种形式为大家讲解stack的应用案例,大家也可以感受到其真正的用途在哪里。
- 第一种形式:多对一
很容易理解,多对一就是将多列数据划为一列,这在什么时候需要用到呢?比如说绘制图形之前,第一步需要将宽数据转换成长数据,我们以下面的例子为例。
cap mkdir d:/stack
cd d:/stack
clear
import excel 身高.xlsx
stack A B C D E,into(y) clear
drop _stack #这里的_stack是数据重整之后产生的一个变量
如下图:接下来大家就可以进行其他数据处理操作了。
- 第二种形式:多对多
这时如果你需要对这些股票数据进行分析,第一步需要整齐划一,将多列化为一列,以8列为一单位进行展示,以上面的例子为例,具体的运行步骤如下:
insheet using 股票行情.csv,clear
replace v3 = ustrfrom(v3,"gb18030",1) #命令ustrfrom可以将乱码形式转化为我们熟知的文字
replace v11 = ustrfrom(v11,"gb18030",1)
rename (ȯ ǰ ɽԪ ӯ) (v2 v4 v7 v8)
stack v1-v16,into(x1-x8) clear
drop _stack
rename (x1-x8) (交易日期 证券代码 证券简称 前收 今收 升跌 成交金额 市盈率)
save 股票行情1,replace
展示效果如下图: 这样一个简单的stack命令就会将宽数据转化为长数据,转化成符合我们要求的数据形式,进而可以进行下一步的数据处理。
以上就是今天分享的全部内容啦,简单的stack命令可以进行以上的数据堆栈处理,小小的内容有着大大的用处,大家一起动手操作起来,感受stack的便捷吧!
本文用到的所有数据集均可通过后台回复stack获取,快去打开Stata试试看吧~