SAS编程:SQL的数据集操作用法简谈

最近,我在处理数据集操作中,使用SQL语句比较频繁。最直接的原因是,数据集拼接时不需要排序。用得多,自然会遇到不少问题,也查询了不少语法内容。在这里汇总使用注意点,方便自己和读者使用时进行查看。

1. 数据观测去重-DISTINCT

如果需要对所选变量进行去重,可以在SELECT语句中使用DISTINCT关键字。需要注意,DISTINCT的作用是针对SELECT语句中的所有变量,所以一个SELECT语句只需要一个DISTINCT关键字(多个会报语法错误)。错误示范如下:

proc sql noprint;
  create table test1 as
    select distinct sex, distinct name
    from sashelp.class
  ;
quit;
log1

2. 观测的筛选1-Where语句

与Data步类似,SQL可以通过Where语句来选择符合条件的记录。但是,如果条件语句中引用的了新建的变量,会出现语法错误,比如筛选出SASHelp.Class数据集中BMI大于20的人(数据集中身高和体重的单位是英寸、磅,需要转换)。

proc sql noprint;
  create table test2 as
    select *, (weight*0.45359237)/(height*0.0254)**2 as bmi
    from sashelp.class
    where bmi > 20
   ;
quit;
log2

与Data步中相同,Where语句是在处理数据之前进行筛选,也就是在SELECT语句之前起作用,由于原表中没有BMI变量,所以SAS运行会报错。解决方法是,在变量前添加CALCULATED关键字,来表明改变量是新生成的,从而避免报错。

proc sql noprint;
  create table test2 as
    select *, (weight*0.45359237)/(height*0.0254)**2 as bmi
    from sashelp.class
    where calculated bmi > 20
   ;
quit;
Output

3. 观测的筛选2-Having语句

在Data步中,Where语句在处理数据之前进行筛选,if语句在处理数据之后进行筛选。与Data步类似,SQL中也有在数据处理之后进行筛选的语句——Having。在Having语句中,可以直接调用新生成的变量。不过,从运算效率角度考虑,推荐在处理数据之前进行筛选。

proc sql noprint;
  create table test3 as
    select *, (weight*0.45359237)/(height*0.0254)**2 as bmi
    from sashelp.class
    having bmi > 20
   ;
quit;
Output

4. 数据集的拼接

数据集的拼接有两种,竖向拼接和横向拼接。

4.1 竖向拼接

在Data步中,竖向拼接使用set语句。由于竖向拼接不涉及变量的匹配选择,所以set语句使用起来还是简单快捷的。

过程步Append也可以实现竖向拼接,不过,是将一个数据集中的记录追加到主数据集的后面,并且变量仅包含主数据集中的变量。过程步Append日常工作中,用的比较少,具体语法,读者可以参考SAS的官方文档。

SQL中的纵向拼接,使用的是union拼接。union拼接的涉及到的拼接形式不少,但日常工作中的竖向拼接是需要同时保留拼接表的所有变量的,也就是Data步的set语句的作用。这样的拼接,使用的是outer union corr。下面简单用代码演示下,为方便展示,使用inobs=选项选取每个数据集的前5条进行竖向拼接。

proc sql inobs = 5 noprint;
  create table test1 as
    select name, weight from sashelp.class
      outer union corr
    select name, height from sashelp.class
  ;
quit;
Output
4.2 横向拼接

工作中常用的横向拼接有两种,第一种,保留原有数据集的数据,并从其他数据集拼接获取需要的变量;第二种,保留拼接数据集中共同的记录。

以2个数据集拼接为例,这两种横向拼接在Data步中实现并不复杂,只是使用merge语句时,各个数据集必须先按照BY变量排好序。如果操作的数据集数量多起来,这一步就琐碎麻烦了。

以上两种横向拼接方式,在SQL中分别对应left joininner join。代码简单演示:

**Left Join;
proc sql noprint;
  create table test1 as
    select a.*, b.*
    from dt1 as  a
      left join dt2 as b
    on a.var1 = b.var1 and a.var2 = b.var2
  ;
quit;

**Inner Join;
proc sql noprint;
  create table test2 as
    select a.*, b.*
    from dt1 as  a
      inner join dt2 as b
    on a.var1 = b.var1 and a.var2 = b.var2
   ;
quit;

5. 如何保留数据集的第一条\最后一条记录?

先介绍在Data步中如何实现这些功能。常用的方法,借助系统变量_N_,这个变量是记录数据集观测的行数。只要保留_N_ = 1的记录,就实现了保留第一条记录。

data tmp;
  set sashelp.class;
  if _n_ = 1;
run;

另一种方法,通过控制读取数据集的记录数实现。数据集选项firstobs=obs=用于控制读入的起始记录以及结束记录的条数。只要起始和结束记录都是第一条记录,那么就实现了读取第一条记录了。这个数据集选项在调试大数据集内容时,特别实用,比如先读取100条数据,等程序完全Run通,再读入所有数据

data tmp;
  set sashelp.class(obs = 1);
run;

由于我们一般不知道数据集的最后记录数,所以以上两种方法不适合获取数据集的最后一条记录。

Data步中Set语句有两个选项end=nobs=,前者创建一个表明是否是数据集尾行的临时变量,后者创建一个保存数据集记录数的临时变量。临时变量不会再数据集中显示,通过赋值给其他变量可以展示出来。

data tmp;
  set sashelp.class end = a nobs = b;
  aa = a;
  bb = b;
run;
Output

通过Set语句这两个选项,可以实现获取最后一条记录。

**end=;
data tmp;
  set sashelp.class end = a;
  if a;
run;

**nobs=;
data tmp;
  set sashelp.class nobs = b;
  if _n_ = b;
run;

那SQL中如何实现这样的功能呢?SQL中有一个“变量”的功能跟_N_类似,这个变量是monotonic()。这个内容是我在Review公司宏程序发现的,在SAS官方文档中也没有找到具体的解释。

proc sql noprint;
  create table tmp as
    select *, monotonic() as num
    from sashelp.class;
quit;
Output

知晓每一行数据集的行号,就可以通过保留行号的最小值和最大值,来实现首条和尾条记录的保留。

proc sql noprint;
  create table tmp as
    select *, monotonic() as num
    from sashelp.class
    having num = min(num)  or num = max(num)
  ;
quit;
Output

感谢阅读!若有疑问,欢迎评论区交流!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352

推荐阅读更多精彩内容