用stack取代excel的数据重整操作吧

本文作者：王子一，中南财经政法大学金融学院
文字编辑：崔赵雯
技术总编：余术玲

有些时候大家从网页或者其他途径拿到的数据，作者为了展示数据的美观，通常会采用宽数据格式进行展示，那么什么叫做宽数据呢？pick一个小知识点：

宽数据是相对于长数据而言的，长数据是指没有对数据集中的变量做细分，即变量中至少有一个变量中的元素值存在重复循环的情况，表格整体的形状为长方形，变量少而观察值多的数据形式，如下图：

图9.png

那么宽数据则是指对数据集中所有的变量进行了细分，各变量的值不存在重复循环的情况，数据集表现形式为变量多而观察值少的情况，以下图展示为例：

图10.png

一般情况下，如果当我们拿到这种宽数据，并且需要对其进行转化使用分析时，小白同学通常就会选择用Excel进行手动操作，剪切粘贴剪贴粘贴...披星戴月...将多列数据归到一列中去，结果一眨眼！！你记不清处理到了哪里，两手抓虾只能重新来过。这时，Stata出现了一个简单的命令，简简单单的操作会给你带来极大的便利，它就是stack命令，一个可以完全取代Excel手动操作的数据重整命令，下面我们来展示它的风采。

首先对stack命令进行简单的介绍：

命令的格式：

stack varlist [if] [in] , {into(newvars)|group(#)} [options]

选项	描述
into(newvars)	数据重整生成的新变量名称
group(#)	重整变量组所需要的组数
clear	从内存中删除数据集
wide	将未在新变量中指定的变量保存在变量组中

注释：into(newvars)和group(#)只能选择一个

简单来说，如果我们想要将4个变量放在1列，就以下图4个变量为例：

图6.png

那么，我们的代码如下：

clear 
input a b c d
1 2 3 4
5 6 7 8
end
stack a b c d, into(v1)

最终运行结果如图：

图5.png

同样地，如果我们将上面例子中的那4个变量放在2列里面，我们可以这样做：

stack a b c d, into(v1 v2)

或者：

stack a b c d, into(v1-v2)

再或者，也可以等价于我们将4个变量分为2组：

stack a b c d,group(2)

上述代码都符合我们的要求，最终运行结果如下图：

图7.png

如果说，将4个变量划为3列呢，这是不可以的！因为3不是4的因数，所以不可以进行这样的重整数据。
而wide的用法则是将未在新变量中指定的变量保存在变量组中，以上面的例子为例进行下面的操作：

stack a b  a c, into(a bc) clear wide

也就是将未在新变量（"a","bc"）中指定的变量（"b","c")保存在变量组中，运行结果如图所示：

图8.png

以上这些就是stack命令的基本操作啦。

接下来我们分为多对一和多对多这两种形式为大家讲解stack的应用案例，大家也可以感受到其真正的用途在哪里。

第一种形式：多对一

很容易理解，多对一就是将多列数据划为一列，这在什么时候需要用到呢？比如说绘制图形之前，第一步需要将宽数据转换成长数据，我们以下面的例子为例。

绘制班级同学身高（如下表）的直方图的前期准备工作，则需要将下图多列的形式转化为一列，如：

图3.png

通过stack命令转换，变为我们所需要的格式，具体运行步骤如下：

cap mkdir d:/stack
cd  d:/stack
clear
import excel 身高.xlsx
stack A B C D E,into(y) clear      
drop _stack  #这里的_stack是数据重整之后产生的一个变量

如下图：

图4.png

接下来大家就可以进行其他数据处理操作了。

第二种形式：多对多

多列转化成多列的使用：我们以股票行情显示为例，比如说网站上为了方便，减小篇幅地展示当日所有股票的行情，会以8列为一单位分别展示出交易日期、证券代码、证券简称、前日收盘价、今日收盘价、涨跌幅度、成交金额及市盈率，然后9-16列会以同样的顺序展示股票行情，如下图：

图1.png

这时如果你需要对这些股票数据进行分析，第一步需要整齐划一，将多列化为一列，以8列为一单位进行展示，以上面的例子为例，具体的运行步骤如下：

insheet using 股票行情.csv,clear
replace v3 = ustrfrom(v3,"gb18030",1) #命令ustrfrom可以将乱码形式转化为我们熟知的文字
replace v11 = ustrfrom(v11,"gb18030",1)
rename (ȯ ǰ ɽԪ  ӯ) (v2 v4 v7 v8) 
stack v1-v16,into(x1-x8) clear
drop _stack
rename (x1-x8) (交易日期 证券代码 证券简称 前收 今收 升跌 成交金额 市盈率)
save 股票行情1，replace

展示效果如下图：

图2.png

这样一个简单的stack命令就会将宽数据转化为长数据，转化成符合我们要求的数据形式，进而可以进行下一步的数据处理。
以上就是今天分享的全部内容啦，简单的stack命令可以进行以上的数据堆栈处理，小小的内容有着大大的用处，大家一起动手操作起来，感受stack的便捷吧！
本文用到的所有数据集均可通过后台回复stack获取，快去打开Stata试试看吧~