前言
蔡志忠老师在一次访谈中说过这样的话:(来源:《生命·觉者》梁冬对话蔡志忠)
做出来比期待的好,就会更好;做出来比期待的快,就会更快。越快越好,又快又好,你就会达到第三种状态,你的成本最低,品质最高,效益最好。当你达到这样的时候,就再也没有敌人。
临床试验中的SAS编程,没有太过复杂的内容,工作一两年基本会接触到,没什么太大的难度。在都能做出来的情况下,又快又好地做出来,就是追求的目标了。
所以,另开一个栏目,记录一下TFL的编程思路,提高下一次处理类似问题的效率。先从一个简单的表入手:
具体实例
Shell内容要求的很明确,输出几个关键点的日期。1个最早,3个最晚,这就是一个求最值的问题。
数值型变量求最值,常用也就两种方法。第一,Data步排序后,依靠first.
/last.
取组内最早或最晚的记录;第二,SQL使用聚合函数min
/max
取组内的最值。
输出涉及3个变量,4种形式,如果使用Data步话,至少要进行3次排序;使用SQL话,一段SQL代码就可以实现。所以,决定采用SQL语句。
具体编程
首先,从外部笔记本里,复制一下我的QC “5段论”:
***1. Create formats for output;
***2. Get data for analysis;
***3. Calculate statistics;
***4. Create dataset for QC;
***5. Compare;
也建议大家,自己也整理一下编程框架,将完整的编程划分几部分,分批处理。这样做,不说效率提高不少,单是心里就会舒服、有谱不少。某年某位日本马拉松选手,就是靠将赛程分段化处理,爆冷门获得冠军的。借鉴成功者的经验,吃不了亏。
先从第2步获取数据开始,为什么不从第一步开始呢?因为我也不知道将要做出的数据集里有啥值。
***2. Get data for analysis;
data adsl;
set adam.adsl;
where fasfl = "Y";
run;
前面的图片没有显示,正常输出TFL的Title/Footnotes里都会分析人群的说明的,这一点要注意,人群选错了,表做得再漂亮也是错的。
接下来,看第3步。
***3. Calculate statistics;
**Get the Date;
proc sql noprint;
create table final1 as
select min(enrldt) as dt1, max(enrldt) as dt2, max(trtedt) as dt3, max(eosdt) as dt4
from adsl;
quit;
有人可能觉得,选人群直接在SQL里加个where
语句不是省了一步,更简洁吗?确实是这样,我只能说我这样做是为了保持“5段论”的好习惯。
输出结果如下:
输出结果是数字,干脆在SQL中处理下,直接输出字符时间:
***3. Calculate statistics;
**Get the Date;
proc sql noprint;
create table final1 as
select put(min(enrldt), date9.) as dt1, put(max(enrldt), date9.) as dt2, put(max(trtedt), date9.) as dt3, put(max(eosdt), date9.) as dt4
from adsl;
quit;
输出结果:
输出成字符就好看很多了。写到这里有一点担忧,万一变量有缺失值怎么办?程序是不是要改进下?这种情况应该如何应对呢?
空想是没有意义的,给取最小值的变量,加个空值,测试下结果。
***2. Get data for analysis;
data adsl;
set adam.adsl;
where fasfl = "Y";
if _n_ = 1 then enrldt = .;
run;
***3. Calculate statistics;
**3.1 Get the Date;
proc sql noprint;
create table final1 as
select put(min(enrldt), date9.) as dt1, put(max(enrldt), date9.) as dt2, put(max(trtedt), date9.) as dt3, put(max(eosdt), date9.) as dt4
from adsl;
quit;
结果如下:
出乎意料,空值居然没有显示出来?难道SQL中函数min
自动排除空值?去查了下SAS文档:
这真是惊喜和意外啊,直接省得判断了。至此,Table需要的数据已经获取,后面是整理成对应Shell的布局。
显然,横着放的,要先转置成竖着放。
**3.2 Transpose results;
proc transpose data = final1 out = final2;
var dt1-dt4;
run;
输出结果:
这就跟目标数据结构类似了,同时第一步Format格式设置也就有了对象:
***1. Create formats for output;
proc format;
value $dt
"dt1" = "First subject enrollment"
"dt2" = "Last subject enrollment"
"dt3" = "Last subject end of investigational product"
"dt4" = "Last subject end of study"
;
run;
***3. Calculate statistics;
**3.3 Set layout for output;
data final3;
set final2;
row_num = _n_;
length c1 c2 $200;
c1 = put(_name_, dt.);
c2 = col1;
keep row_num c1 c2;
run;
结果如下:
Table主体内容输出后,QC的时候还需要考虑Header的内容:
***4. Create dataset for QC;
**4.1 Create dataset for header;
data header;
row_num = 0;
length c1 -c2 $200;
c1 = "Description of Key Dates";
c2 = "Date";
run;
**4.2 Create dataset for QC;
data qc;
set header final3;
run;
这个输出结果,应该跟公司宏抓取RTF的结构是一致的了。
总结
这张Table的关键是取最值方法的选择,与Data步相比,SQL在数据处理上确实是更具灵活性。
感谢阅读!若有疑问,欢迎评论区交流!