1. 前言
在目前工作中,用stata清洗及分析数据,感觉很顺滑。无奈不少同学因为help文件里的英文望而却步。
带着学习和分享的目的,根据工作经验,给大家整理一些常用以及不太常用但很有用的命令,并对该命令的help文件进行有侧重的详解。
2. 命令及获取
groups
:分组显示频率和百分比,实现类似excel的数据透视表的功能,需要通过ssc install groups
进行安装
3. 描述
groups
:能够实现类似excel的数据透视表的功能,分组显示频数和百分比,按条件显示结果,结果可以保存为数据集等功能。
4. 语法
groups varlist [if] [in] [weight] [, options]
- [,]:中括号里的为额外选项命令,按需求添加,而添加选项记得加英文逗号,
- [if]:表示增加条件,例如,变量var等于1,
if var==1
。- [in]:表示选择个案数,例如,选择前10个个案,
in 1/10
。
5. 选项
- 命令选项:
fillin
:添加本选项,将频率为0的分组也显示出来,若组数太多,慎重添加本选项。ge
:添加本选项,在计算累计频率和百分比时,从当前频率和百分比开始计算。lt
:添加本选项,在计算累计频率和百分比时,从前一项的频率和百分比计算。missing
:添加本选项,缺失的个案也会作为一类呈现。默认不显示缺失的个案。select(condition|#)
:添加本选项,有条件的显示结果。select(5)
和select(-5)
分别表示显示前5类结果,后5类结果。select(freq==1)
,select(Freq==1)
,select(RFreq==1)
: 分别表示呈现频率,累计频率,倒累计频率为1的结果。注意,freq
,Freq
,RFreq
大小写不同含义不同。select(percent>5)
,select(Percent>5)
,select(RPercent>5)
: 分别表示呈现百分比,累计百分比,倒累计百分比大于5的结果。注意,percent
,Percent
,RPercent
大小写不同含义不同。select(vpercent<50)
,select(Vpercent<50)
,select(rvpercent<50)
:分别表示呈现有效百分比,有效累计百分比,倒有效累计百分比小于50的结果。注意,vpercent
,Vpercent
,rvpercent
大小写不同含义不同。show(what_to_show)
:添加本选项,指定呈现什么样的结果。默认,一个变量显示频率,百分比和累计百分比;二个及以上变量显示频率和百分比。显示结果包括:freq
(频率),Freq
(累计频率),RFreq
(倒累计频率),percent
(百分比),Percent
(累计百分比),RPercent
(倒累计百分比),vpercent
(有效百分比),Vpercent
(有效累计百分比),rvpercent
(倒有效累计百分比)。percentvar(varlist)
:添加本选项,表明按某些变量呈现子百分比。- 展示选项:
format(format)
:添加本选项,指定结果呈现格式,默认为format(%6.2f)
,保留2位小数。- list_options:即和命令
list
的选项相同。order(high|low)
:添加本选项,指定结果的频率排序是倒序还是顺序。reverse
:添加本选项,指定呈现结果的类别倒序呈现。showhead(text)
:添加本选项,指定呈现结果中的统计量的名称,例如,,show(fre per vpercent) showhead("频率" "百分比" "有效百分比")
colorder(integers)
:添加本选项,可以调整结果的列的呈现顺序,例如,,colorder(4 3 1 2)
表示将默认的列的顺序按照第4列,第3列,第1列,第2列呈现。- 保存结果:
saving(filename[,save_options])
:添加本选项,可以将呈现结果保存为.dta数据,并且,可以使用命令save
的选项。不可和by
结合使用。
6. 举例
-
groups
命令结果
-
对比命令
tabulate
单个变量时,默认呈现频率,百分比和累计百分比结果。
多个变量时,按照变量顺序排序呈现,默认呈现频率和百分比结果。
-
-
fillin
选项增加效果:将频率为0的类别也呈现出来
-
ge
和lt
选项增加效果:前者从当前频率和百分比开始计算;后者从前一项频率和百分比开始计算
-
missing
选项增加效果:缺失的个案也会作为一类呈现
-
select(condition|#)
选项增加效果:有条件地呈现结果
show(what_to_show)
选项增加效果:指定呈现频率,百分比,累计频率,累计百分比,倒累计频率,倒累计百分比,有效百分比,有效累计百分比,倒有效累计百分比
-
percentvar(varlist)
选项增加效果:分类呈现子百分比
-
format(format)
选项增加效果:结果的百分比呈现1位小数
-
order(high|low)
选项增加效果:分别按照频率进行倒序和顺序排序
-
reverse
选项增加效果:将分组类别倒序呈现
-
showhead(text)
,colorder(integers)
,saving(filename[,save_options])
选项增加效果:统计量标签中文太长可能显示不全,但在保存为数据集时变成变量标签是全的。
7. 菜单
无
8. 存储的结果
无
9. 补充
无