Adam中SUPP数据集的应用

SUPP数据集是对变量的补充说明，我们先直接来看一下一个项目中 ADCM 中变量 ATC1 的生成。Spec中的逻辑是：

SUPPCM.QVAL where QNAM= ARATC1T for the given USUBJID and CMSEQ if CMCAT = "ART MEDICATIONS";
SUPPCM.QVAL where QNAM= CMATC1T for the given USUBJID and CMSEQ if CMCAT = "PRIOR AND CONCOMITANT MEDICATIONS";

这个变量的有两个来源，我们拿一个来举例。ATC1 的值为 SUPPCM 数据集中的 QVAL，QVAL有那么多条记录，有什么条件呢？

SUPPCM.QNAM= ARATC1T

USUBJID 相同

CMSEQ 相同

CM.CMCAT = "ART MEDICATIONS"

我看到这些条件第一个想法是，CM 与 SUPPCM 按照USUBJID、CMSEQ拼接就好，然后根据另外两个条件进行赋值就好了。可当我看到SUPPCM数据集的结构时，突然有种无从下手的感觉。

SUPPCM截图

首先SUPPCM数据集中没有CMSEQ这个变量，所以上面第一个想法无法直接运行。思考了一会，第一个想法是用Proc SQL进行拼接。与DATA相比，SQL拼接的灵活性要好很多，可以输出多个条件对拼接进行约束。

SQL拼接

上面的代码思路是，单独新建一个新的数据集用来生成 ATC1。这过程不需要将两数据集中的拼接变量修改成相同的名称，可以直接引用进行比较：

on a.usubjid =b.usubjid and a.cmseq = b.idvarval_n

同时，在Where语句中进行条件设置，不需要多余的处理。生成的数据集如下：

ATC1

那不用SQL语句，DATA步是否可以实现这样的效果呢？也是可以的。前面无从下手的原因是，在SUPPCM数据集中，用于拼接的BY变量不直接存在，得新建后在进行拼接。CMSEQ不是一个单独的变量，它是一个标志符（IDVAR变量的值），具体的CMSEQ值在IDVARVAL中，无法直接拼接。这种情况可以先进行条件选择，使得IDVARVAL变量保存的都是CMSEQ的值，这样以这个变量作为BY变量就可以拼接了；同理，QNAM的约束条件也提前处理好，新建CMTRT变量与CM数据集中的CMTRT值进行对应。我们可以先看下代码:

Data步拼接

由于DATA步拼接要保证BY变量的名称相同，所以要提前重命名或生成需要的BY变量;而PROC SQL中不需要保证BY变量名称相同，与DATA步相比，显得简洁。

回过头来看之前的代码，可以进行一些小修改。在SQL拼接中，目前的思路是需要哪些变量，就生成新的数据集，数据集里包含ID类的变量，用于后来的拼接，思路很流畅；当然，也可以一步到位，直接将新变量拼接到CM数据集中，新建一个拼接一个，不需要最后的汇总拼接。

在DATA步拼接中，可以不进行观测数筛选，保留其他不符合条件的观测，因为在拼接过程中这些观测不影响拼接结果，如下图：

DATA步拼接小修改

这样的修改因为保留了很多观测，拼接的效率会降低，但是整个思路会更容易理解。

最后编辑于：2019.05.05 11:14:34