SDTM介绍（3）-- 数据集或记录之间的关系描述

1、数据集或记录之间的关系

在很多情况下，需要表示数据集或记录之间的关系。SDTM规定了8中不同类型的关系：

同一数据集中特定受试者一组记录之间的关系；
受试者独立记录之间（通常保存在不同数据集中）的关系，例如治疗不良事件的伴随用药；
两个(或多个)数据集之间的一种关系，其中一个(或多个)数据集的记录与另一个数据集(或多个数据集)中的记录相关；
在一般观测类数据集记录(或记录)中，不能用标准变量表示的数据可以与该记录相关联的从属关系；
注释域中的某个注释记录与在其它数据集中父记录之间的一种从属关系，例如一个不良事件的注释记录；
某一受试者与同组受试者之间的关系；
某一受试者与相关人员(Associated Persons)之间的关系；
研究中非同组受试者之间的关系。

2、各关系的具体说明

2.1 同一数据集中特定受试者一组记录之间的关系 -- 变量GRPID

可选的组别标识符变量--GRPID，用于表述这个关系。--GRPID用于标识单个域内某一受试者的记录之间的关系，具体通过为--GRPID 变量分配相同的唯一字符值来表述。变量--GRPID的值可以是申办方选定的任意值，如果值具有特殊含义，在项目提交过程中，这些值应该保持一致，避免混淆。以下是SDTMIG中的举例说明：

CMGRPID

2.2 受试者的独立记录之间的关系 -- RELREC数据集

相关记录(Related Records, RELREC)特殊目的数据集，用于描述单一受试者的独立记录之间的关系。RELREC所描述的关系是通过收集(信息)而来的，要么通过CRF上明确的参考或检查框，要么通过CRF的具体设计。例如，治疗不良事件的伴随用药，这两个数据集中对应的记录是相关的。

数据集RELREC，通过为每一条有关联的记录添加一条记录来描述相关关系；同时，也会分配一个唯一字符值来标志这个关系。数据集RELREC中的每一条记录都会含有标志相关记录和相关关系的关键词，这个关键词保留在变量RELID中。表达相关关系的记录是通过关键变量STUDYID、RDOMAIN、USUBJID、IDVAR以及IDVARVAL指定的。单独的记录可以用唯一的记录标示变量，例如IDVAR 中的--SEQ 相关联；一组记录可以通过使用IDVAR 中的--GRPID 相关联。IDVARVAL 保存IDVAR 中描述变量的值。以下是SDTMIG中的3个例子：

示例1，展示了如何使用RELREC数据集关联存储在不同域中的记录，不良事件同时与伴随用药和实验检测结果相关，但实验室检测的记录与伴随用药不相关。

RELREC示例1

示例2，与示例1 的情况相同；但是，伴随用药、实验检测以及不良事件都存在关联性。

RELREC示例2

示例3，与示例2 的情况类似；但是，记录标志变量由CMSEQ换为CMGRPID，RELREC中数据集减少一条记录。

RELREC示例2

2.3 数据集之间的关系 -- RELREC数据集

相关记录(Related Records, RELREC)数据集也可以用来描述数据集之间的关系（例如，一对多或父-子关系）。该关系是通过为每个相关数据集包含的单个记录来定义，该记录标识了数据集的关键变量(可用于关联各个记录)。只有当申办方发现有必要在相关的数据集之间分割信息时，或可能需要一起检查以便进行分析或作出适当的解释时，数据集之间的关系才应该记录在RELREC数据集中。

下面的SDTMIG v3.3中的示例，展示了如何使用RELREC数据集来表示作为两个具有一对多关系的数据集提交的相关信息。示例中，一个域中的所有记录都与另一个域中的所有记录相关，因此USUBJID和IDVARVAL都为空。

RELREC示例4

以TU、TR为例，变量TULNKID、TRLNKID的值是一个复合值(eg, per lesion ID, lesion type, evaluator, imaging method)，这样使在SDTM TU域所代表的病变与在SDTM TR域随时间进行的一次或多次评估之间的数据级关系成为可能。在肿瘤研究中，对于Target Lesions，LNKID通常格式为：'T' + Lesion Number；对于Non-Target Lesions，LNKID通常格式为：'NT' + Lesion Number'。

变量RELTYPE 确定数据集间的关系。允许的值可以为ONE 或MANY(受控术语)。这些信息定义了如何写入合并/联接，以及合并/联接的结果是什么。可能的组合是以下：

一对一。这种组合表示数据集间及数据内的记录间没有层级关系。每个数据集中只有一条记录可能在USUBJID中具有相同的IDVAR值。
一对多。这种组合表明数据集之间存在层次(父-子)关系，由RELTYPE =" ONE"标识的数据集中USUBJID中的一条记录可能与由RELTYPE ="MANY"标识的数据集中的多条(一条或多条)记录的IDVAR具有相同的值。
多对多。这种组合是不寻常的，合并/连接很难管理，并且可能表示一种不打算递交的关系。

2.4 非标准变量与父域的联系 -- SUPP数据集

SDTM 不允许添加新变量（与SDTM定义的标准变量相比）。因此，非标准变量以及非标准变量与一般观测类数据集(Events, Findings, Interventions)和DM数据集中主记录的关系，是通过补充修饰特殊目的(Supplemental Qualifiers special purpose)数据集来展示。补充修饰可以表示为包含申办方定义变量的SUPP--数据集。正如名称“补充修饰”所表达的，这个数据集是为了收集观测记录的非标准修饰语变量，具体修饰语变量的描述可以参考SDTM介绍（1）-- 观测记录与相关术语。

SUPP数据集变量

SUPP数据集的结构与RELREC数据集类似，都是使用相同的关键词设置(STUDYID、RDOMAIN、USUBJID、IDVAR、IDVARVAL)来与主记录相关联。单独的记录可以用唯一的记录标示变量，例如IDVAR 中的--SEQ 相关联；一组记录的话，可以通过使用IDVAR 中的--GRPID 相关联。IDVARVAL 保存IDVAR 中描述变量的值。SUPP数据集变量，还包括添加的修饰变量名称(QNAM)、修饰变量的标签(QLABEL)、修饰变量的值 (QVAL)、值的出处(QORIG)以及给出值的评估人员(QEVAL)。变量QNAM和QLABEL的常用受控术语(Controlled Terminology, CT)如下:

CT for QNAM and QLABEL

SUPP数据集收集的信息可能既包含客观数据（通过采集而来或根据算法生成），又包含主观数据（由个人或委员会指定）。对于客观数据，变量QEVAL的值为空；对于主观数据（QORIG=Assigned），QEVAL的值会反映指定这一数值的个人或团体（e.g., "SPONSOR" or "ADJUDICATION COMMITTEE"）。

SUPP数据集也用来收集属性值(Attributions)。典型的属性值包含解释说明(Interpretation)，或者评估人员对观测记录的主观分类(Subjective Classification)，例如，观测记录是否被认为具有临床意义，或根据有效性分析的可评估性对受试者或数据进行分类的人群标志(Population Flag)。下面看两个例子：

第一个例子，CRF EG Form中“Result Code”的信息保存到数据集中，就是EGTEST=“INTERPRETATION”， EGORRES的取值为NORMAL和ABNORMAL，是否具有临床意义的信息保留在SUPPEG数据集中，修饰符名称QNAM=“EGCLSIG”。

ECG Interpretation

第二个例子，某个项目的SDTＭ-SPEC中，DM中的这些人群标志变量全部是设置保存到SUPP数据集中。

Population Flag

2.5 与父域相关联的注释 -- CO数据集

特殊目的备注域，Comments(CO)，主要收集缺乏结构的自由文本注释，它允许递交与特定的域（例如，不良事件）相关的注释，或者那些采集在单独的与任何域无关的通用注释页面上的注释。注释可能与受试者、与受试者的一个域、或者任何域中的特定父记录有关。

备注域的结构类似于补充修饰（SUPP-）数据集，因为它使用一套相同的关键字(STUDYID, RDOMAIN, USUBJID, IDVAR 及 IDVARVAL)来识别相关记录。除了采集在通用注释页面上的注释，所有的注释均被看作是域中采集到的数据的子记录。STUDYID, USUBJID,和DOMAIN(值为“CO”)必须有值。

RDOMAIN，IDVAR和IDVARVAL 的赋值有以下三种情况：

通常注释只与某一受试者相关联(很可能在CRF上收集)，RDOMAIN、IDVAR、IDVARVAL将都为空值，因为确定与该受试者的关系/关联所需的唯一关键变量是USUBJID。
对于某一受试者来说，仅与特定域（不是与任何指定记录）有关联的注释，RDOMAIN的值将会是该特定域的代码，IDVAR 和IDVARVAL 都是空值。
对于某一受试者来说，与特定域记录有关联的注释，RDOMAIN、IDVAR、IDVARVAL都将会赋值以关联到主域对应的记录上。

关于CO的CRF举例，可以参考临床试验CRF中Form介绍23：Comments(CO)数据集。

2.6 研究中受试者之间的关系 -- RELSUB数据集

在某些研究中，受试者是相互关联的；在某些情况下，这些关系是很重要的。数据集RELSUB是用来描述研究中受试者之间的这类关系。受试者之间关系的最常见的案例是，孕妇接受治疗，母亲和孩子都是研究对象的研究。还有一些关于基因疾病的研究，受试者是彼此有血缘关系的人，受试者之间的关系也会记录下来。

目前工作中，我还未接触过RELSUB相关的案例，数据集的RELSUB的说明信息可以参考SDTMIG v3.3 - 8.7 Relating Study Subjects。

2.7 受试者与相关人员(Associated Persons)之间的关系 -- AP数据集

在临床研究中，有时会收集研究受试者以外的其他人的数据。这些人可能与研究本身、特定受试者或研究中使用的设备有关。“相关人员(Associated Persons)”一词用于对临床研究中的非受试者进行分类，相关人员(AP)可能是受试者的家庭成员，也可能与受试者非家族关系。例如，相关人员可能是看护者或器官捐赠者。

目前工作中，我还没有接触过AP的相关案例，若对这方面感兴趣，可以参考CDISC官方文档Study Data Tabulation Model mplementation Guide: Associated Persons(SDTMIG - AP v1.0)。

以上就是SDTM中数据集或记录之间的关系描述，如有疑问欢迎评论区讨论！