SAS编程过程中,我们需要生成大量的数据集名称、变量名称、逻辑库名称、宏变量名称等等。这些名称既要求符合SAS语法,又要求通俗易懂,方便自己在后续的代码中调用,也方便他人维护。
1. 符合SAS语法规则。
SAS名称,要求仅包含英文字母、数字和下划线,不能以数字为开头。比如”data1” “_data_1”都是可以的,但不能用“1DAT”。
2. 易于理解。
用有实际含义的单词命名,比无实际含义的字母命名更加易于理解。比如“age_group“比”a1”, “aaa”等等容易理解。
3. 能用短单词或者单词缩写的,不用长单词。
比如“agegrp”就比”age_group”更短,同样能够理解,显得代码还更简洁。可以想象,写一个6字符的变量名,比9字符的变量名,更节省时间。
注意,使用缩写时,应当使用大家都能理解的。如果一个缩写对应多个概念,难以区分,就要谨慎使用了。
4. 巧用下划线
当一个SAS名称概念涉及多个单词时,可以用下划线“_”来区分。比如“demo_data”
5. 符合特定标准的要求。
比如CDISC对于产生的最终SDTM/ADaM数据集名称、变量名称都有规定。在撰写代码时,中间步骤的SAS名称可以自由发挥,但也可以仿照CDISC缩写词汇表,能够用最简单的缩写,表达清楚SAS名称的实际含义。
例如,字符型日期变量以“DTC”结尾,数值型日期变量以“DT”结尾。让人一看到就知道什么意思。
6. 谨慎使用同样的名称反复覆盖。
在SAS中,同样的SAS名称会出现后者覆盖前者的情况。必须确保在覆盖不存在问题,而且之前的名称不在需要用时,才去覆盖。否则,还是老老实实地用不同的SAS名称。比如“AE1”,“AE2”。
本文章首发于公众号【SAS编程未来】