Stata中的数值型变量分类神器--recode

本文作者:陈丹慧,中南财经政法大学金融学院
文字编辑:崔赵雯
技术总编:余术玲

导读

​  初识recode命令,我以为它就是个改缺失值的小能手。我们常常看见它是这样出现的:

recode a (.=0)

​  它的作用等效如下:

replace a=0 if a=.

​  再识recode,才发现这个小命令没那么简单!掌握了recode,处理起数值型变量不是一般地溜!好东西就要分享,接下来,我就给大家全面解析recode命令。

一、语法

​  recode命令的完整语法如下:

recode varlist (erule) [(erule) . . .] [if] [in] [, options]

​  其中,varlist是指我们想改变的一到多个变量;erule是我们指定的改变规则,形式为新值=旧值。可以同时指定多个规则,每个规则用小括号括起来,用空格分隔;ifin是条件和范围筛选语句,可以根据目的自由添加;最后是一些重要的options选项,后面会具体介绍。

(1)一般的规则形式

recode x (3=1) //将变量x观测值中的3全部改为1
recode x y (8=1) (7=2) (6=3)  //将变量x和y的观测值中的8改为1,7改为2,6改为3
recode x (2 .=0) //将变量x观测值中的2和缺失值改为0
recode x (1/5=4) //将变量x观测值为1到5闭区间内的实数都改为4

​  注意:在recode命令中的1/5和Stata数列表示中的1/5不同。数列表示中1/5指1,2,3,4,5这5个整数,但在recode命令中1/5包括1到5闭区间内全部实数。 ​
  此外,我们还可以用min和max来代表数值,且在等号左边和右边均可。

recode x (min/3=max) //将最小值到3这个区间内的值都改为最大值

(2)含关键词的规则形式:

​  为了更好说明含关键词的规则形式,我们先用input命令输入一些变量与数值:

clear
input v
1
2.1
3.2
.
5
6
7
8
end

​  并且为了更好展示效果,插播一下,介绍两个简单但十分重要的选项:
  首先是generate()选项,用于生成新变量的变量名。其次是prefix()选项,用于添加新变量前缀。如果不使用这两个选项,我们使用recode命令时就会使初始数据产生改变,带来很多不方便,因此强烈推荐在使用recode命令时添加这两个选项之一。 ​
  例如:将原始数据中的1到5改为0,并将改变后的数值储存在一个由原变量名称添加前缀"new_"的新变量中。

recode v (1/5=0),prefix(new_)

​  此时,数据集如图所示:

image1.png
​  观察新变量,我们注意到,规则指定外的数值都保持不变。此时,我们可以继续指定一般规则,也可以指定含关键词的规则。含关键词的规则是针对没被之前规则改变的数值而设定的,它必须放在一般规则的后面。主要的关键词有以下四个:nonmissingmissingelse和*****。

recode v (1/5=0) (nonmissing=1),generate(v1) //将未被前面规则改变的非缺失值改为1
recode v (1/5=0) (missing=2),generate(v2) //将未被前面规则改变的缺失值改为2
recode v (1/5=0) (else=1),generate(v3) //将未被前面规则改变的所有值改为1
recode v (1/5=0) (*=1),generate(v4) //*和else作用完全一样
recode v (1/5=0) (nonmissing=1) (missing=2),generate(v5)

​  再次观察数值集,相信大家此时对关键词规则基本了解了。
image2.png

  此外,重点提示一下,else/*不能与nonmissing或missing同时使用,否则会出现如下报错:
image3.png

二、其他选项与案例

(1)test()选项

​  recode命令中的规则指定是有序的。从左到右的规则中,一旦一个值在前面已经被指定做出某种改变了,在后面的规则中如果再次指定这个值,会被忽视。以刚刚的数据为例:

recode v (1/5=0) (5=1),generate(v6)

​  在这里,对数值5先后做出了两次指定:第一次要求将5变为0;第二次要求将5变为1。观察数值集可以发现,5变为0了,而将5变为1的指令被忽视了:
image4.png

​  但结果界面没有给出明显提示:
image5.png

​  如果碰上大数据,出现这样的操作失误很难被发现。加上一个test()选项,在结果界面就会有提示规则重复了:
image6.png

  此外,test()选项还能测试recode命令是否应用了所有规则,如果有规则没有被使用,将会显示警示。如下:数据集中并没有10这个数值,因此这个规则指定一定是无效的,加上text()选项就会提示有至少一条规则没有生效:
image7.png

(2)copyrest()选项

​  在recode命令中,如果添加if或in语句限定了观测值改变范围,在产生的新变量中,范围外的数值将会变为缺失值。例如,指定前三行的数值进行相应改变:

recode v (1/5=0) in 1/3,gen(v9)

​  观察数据集可发现,前三行外的数值全部变成了缺失值。这时加上copyrset选项,就会将范围外的观测值原样复制到新变量中。

recode v (1/5=0) in 1/3,gen(v10) copyrest

image8.png

(3)label()选项

​​  label()选项可以说是recode命令的灵魂,正是因为有label()选项,recode才可无愧于分类神器这个称号。在之前的推文让你的数据一目了然--label命令介绍中,我们介绍过如何使用label命令来给值贴标签。一般分为两步走,先用label define 定义值标签,再用label value 贴标签。而recode命令中,简单一行命令就可以搞定这两步! ​
​  下面我们以Stata提供的网络数据集来介绍一下recode命令中的label()选项:

webuse fullauto, clear

​​  观察变量窗口,我们可以发现rep77,rep78两个变量共享值标签repair。
image9.png

​  查看repair这个值标签的内容。

label list repair

​​  我们发现repair这个值标签有5项内容:
image10.png

​​  现在,我们觉得分成5类太多了,想改为3类,且对相应数据重新分组赋值,即实现如下操作:
image12.png

​  直接在每个规则指定后面用双引号添加新标签内容,并且在最后添加label()选项为新标签命名即可:

recode rep77 rep78 (1 2=1 "Below average") (3=2 "Average") (4 5=3 "Above average"),prefix(new) label(newrep)
list *rep* in 1/5,nolabel
label list repair newrep

​​  此时,新的标签内容和部分数据集情况如下:
image13.png

​​  今天对recode命令的介绍就到这里了,快去动手试试分类你的数值型变量吧!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,377评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,390评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,967评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,344评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,441评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,492评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,497评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,274评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,732评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,008评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,184评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,837评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,520评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,156评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,407评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,056评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,074评论 2 352

推荐阅读更多精彩内容

  • Stata中字符型变量生成数值型变量 stata中在将纯字符型变量(如A,B,A1)生成新的数值型变量(只能生成,...
    蓝色Stata阅读 39,377评论 2 6
  • 本文主要针对plotly的参数含义进行说明,随着plotly版本的迭代更新,部分参数的用法会有细微变化,具体参加官...
    惑也阅读 49,777评论 0 34
  • 本文作者:赵冰洁,中南财经政法大学金融学院文字编辑:崔赵雯技术总编:余术玲   在往期推文《encode和deco...
    StataPython数据分析阅读 30,286评论 0 2
  • 久违的晴天,家长会。 家长大会开好到教室时,离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。 放学铃声...
    飘雪儿5阅读 7,518评论 16 22
  • 创业是很多人的梦想,多少人为了理想和不甘选择了创业来实现自我价值,我就是其中一个。 创业后,我由女人变成了超人,什...
    亦宝宝阅读 1,805评论 4 1