SAS数据集排序后,对于每一个排序变量,数据集自带两个临时变量(Temporary Variable),First.Var,Last.Var。这两个临时变量指示数据是否为组内首行或尾行。我们来看个例子。
从结果中可以看到,ONE数据集中按照SUBJECT排序后,First.subject=1表明记录位于组内首行;First.subject=0表明记录不在组内首行,Last.subject与前者类似。当组内只有一条观测时,这时候,First.subject和Last.subject同时为1。下面介绍一下,这两个临时变量的应用。
1.标记阳性受试者
我们先创建一个测试数据集,这个数据集包含3个变量,patno(受试者编号)、 visit_no(访视编号)、 outcome(检测结果)。
对于这样结构的数据,我们想要找出有outcome=1记录的受试者,如何实现呢?一种方法,使用First./Last.。
数据集按照PATNO、VISIT_NO排序,按照PATNO分组,新建一个FLAG变量来记录是否为阳性结果。对于每一组,首先将FLAG变量置空(if first.patno = 1 then flag = 0;
); 当遇到记录读到阳性数据时,FLAG设为1(if outcome = 1 then flag = 1;
。因为这里的FLAG是Retain下来的,所以当FLAG设为1后,同一组内的后续记录为0后,不会在进行赋值,一直保留为1。当读到组内最后一条记录时,将这条记录输出到数据集Flag_test中。这样有"阳性结果"的患者就可以用FLAG=1来标识了。
2.阳性记录计数
上面的例子只是选出有阳性记录的受试者编号,这样无法知晓每个受试者具体的阳性记录。下面,我们实现组内阳性记录的计数。
首先,在组内首行将计数变量COUNT设为0,每遇到阳性记录计数就加1。count+1
相当于retain count 1; count = count +1
,当遇到非阳性记录时,条件语句不执行,count值保留进入下一行记录的计算,最后只保留组内最后一条记录。
***筛选阳性记录;
data lab;
input patno visit_no outcome;
datalines;
3 1 0
3 2 0
3 3 1
1 1 0
1 2 1
1 3 0
1 4 1
2 1 0
2 2 0
4 1 1
4 2 1
4 3 1
;
run;
proc sort data=lab;
by patno visit_no;
run;
data flag_test;
set lab;
by patno;
retain flag; ***if flag = 1 outcome was positive;
***initialize flag;
if first.patno = 1 then flag = 0;
***turn flag on if outcome is positive;
if outcome = 1 then flag = 1;
***output one observation when processing the last visit for a patient;
if last.patno = 1 then output;
drop outcome visit_no;
run;
proc print data=flag_test;
title "listing of data set flag_test";
run;
***计数;
data count_test;
set lab;
by patno;
***initialize count;
if first.patno = 1 then count = 0;
***increment count if outcome is positive;
if outcome = 1 then count + 1;
***output one observation when processing the last visit for a patient;
if last.patno = 1 then output;
drop outcome;
run;
proc print data=count_test;
title "listing of data set count_test";
run;