2.3 General Variable Assumptions
2.3.1 Variable-naming Conventions
SDTM 变量的命名是根据一套惯例(CDISC Variable-naming Fragments)。名称以 "CD "结尾的变量是相关变量的 "短 "版本,不包括 "CD "后缀。例如,--TESTCD是--TEST的简写版本)。
TESTCD的值必须限制在8个字符以内,不能以数字开头,也不能包含字母、数字或下划线以外的字符。这是为了避免与SAS v5传输文件的不兼容。在其他格式(如Dataset-XML)被监管机构接受之前,这一限制将一直有效。
由于QNAM在补充限定符数据集中的作用与-TESTCD相同,因此QNAM的值与-TESTCD的值受到同样的限制。
其他 "CD "变量的值不受--TESTCD的限制。
- ETCD(the companion to ELEMENT)和TSPARMCD(the companion to TSPARM)被限制为8个字符,没有适用于-TESTCD的字符限制。这些值应该很短,以便于在编程中使用,但预计它们不需要作为变量名使用。
-
ARMCD限制为20个字符,没有适用于-TESTCD的字符限制。ARMCD的最大长度比其他 "短
"变量要长,以适应交叉试验中可能需要的那种数值。例如,如果为7个周期的交叉试验构建ARMCD值时,每个处理都使用2个字符的缩写,并将连字符分开,那么ARMCD值的长度将是20个字符。ARMCD值的长度是20。这一规则同样适用于ACTARMCD变量。应提供变量描述性名称(标签),最多40个字符,作为所有变量的数据变量标签,包括补充限定符变量。
对于同一类型的数据(即使是自定义域和补充限定符),变量名称(除域的前缀外)、格式、解码、术语和数据类型的使用在提交的研究中应保持一致。
2.3.2 Tow-character Domain Identifier
为了最大限度地减少为报告目的合并/连接域时的困难,2个字符的域标识符被用作大多数变量名称的前缀。
在将
SDTM 中的变量添加到标准域(standard domains)或基于一般观测类(general
observation)创建自定义域时,申办者必须用该域/数据集的 2 字符域标识符(DOMAIN)值替换一般观测类、计时和标识符的 SDTM
表中的"--"前缀。2个字符的域代码,第一个字符仅限于A-Z,第二个字符为A-Z,0-9。不允许有其他字符。这是为了与SAS
v5传输文件和作为电子通用技术文件(eCTD)一部分的文件命名要求相兼容。
以下变量是所有变量名称都以域为前缀这一理念的例外情况标识符(Identifier)。
- 必要的标识符(STUDYID、DOMAIN、USUBJID)
- 常用的分组和合并键(如VISIT、VISITNUM、VISITDY)。
- 除DMDTC和DMDY之外的所有人口统计学(DM)领域变量
- RELREC和SUPPQUAL中的所有变量,以及评论和试验设计数据集中的一些变量 需要的标识符没有前缀,因为它们通常在合并/连接观测值时被用作键。识别符
--SEQ和可选的标识符--GRPID和--REFID是有前缀的,因为它们可以在跨域观测时作为键来使用。因为它们可以在跨域的观测值之间进行关联。
2.3.3 Use of "Subject" and USUBJID
为了与FDA指南的建议保持一致,"受试者 "被用来泛指患者和健康志愿者。术语 "受试者 "在所有标签和 Define-XML文件的评论中都应统一使用 "受试者 "一词。为了在所有涉及产品的申请或提交的所有研究中唯一地识别受试者,应分配一个独特的标识符(USUBJID),并包含在所有数据集中。
USUBJID值在提交的所有试验中,每个试验参与者(受试者)必须是唯一的。这意味着,在提交的所有试验中,没有2个或更多的受试者可以拥有相同的USUBJID。此外,参加多项临床试验的同一个人(当知道这一点时)必须在所有试验中分配相同的USUBJID值。
CDISC不推荐USUBJID值的任何特定格式,只推荐该值对提交的所有受试者以及在同一化合物的多次提交中,这些值必须是唯一的。许多申办者将研究、研究地点和受试者的值连接到USUBJID中,但这不是一个要求。任何格式的USUBJID都是可以接受的,只要这些值在所有受试者中是唯一的。
2.3.4 Text Case in Submitted Data
建议提交的文本数据都是大写字母(如:NEGATIVE)。例外情况可能包括长的文本数据(如评论文本)和查找数据集中的--测试值(如果在转置的视图中作为标签使用,在标题的情况下可能更易读)。来自CDISC控制术语或外部代码的值的值或外部代码(如MedDRA、SNOMED)或仪器指定的QRS仪器的响应值。文档中的值应采用这些来源规定的大小写,可能是混合大小写。文本数据中使用的大小写必须与Define-XML文件中提供的控制术语中使用的大小写一致。
2.2.5 Convention For Missing Values
单个数据项的缺失值应该用空值来表示。
2.2.6 Grouping Variables and Categorization
分组变量(grouping variables)是指标识符和限定符变量,如-CAT(类别 Category)和-SCAT (子类别 Subcategory),对SDTM领域/数据集中的记录进行分组,并可由发起人指定,对主题变量值进行分类。例如,一个LBTEST ="SODIUM "的实验室记录可能有LBCAT = "CHEMISTRY"和LBSCAT ="ELECTROLYTES"。
--CAT和--SCAT的值不应该与--CAT提供的域名或字典分类重复。DECOD和-BODSYS所提供的域名或字典分类不应重复。
How Grouping Variables Group Data
For the Subject
1. 所有具有相同USUBJID值的记录是描述该主题的一组记录。跨越主题(具有不同USUBJID值的记录)
2. 所有具有相同DOMAIN值的记录都是一组描述该领域的记录。
3. --CAT(类别)和--SCAT(子类别)值在该领域内进一步细分群体。一般来说,--CAT/--SCAT值在一个特定的领域内具有意义。然而,也有可能在相关领域(如MH和AE)中使用相同的-CAT/-SCAT值。当数值在不同的领域中使用时,其意思应该是一样的。当--CAT/--SCAT在不同的领域/数据集中可能有不同的含义时,例子包括
a. 同一总体观察类中的不同领域包含类似的概念性信息的情况。例如,不良事件(AE)、病史(MH)和临床事件(CE)在概念上是相同的数据,唯一的区别是事件开始的时间与研究开始的时间不同以及该事件是否被认为是研究中可报告的不良事件。
例如:肿瘤学试验中收集的神经毒性数据,既可以作为单独的病史CRF(MH域),也可以作为不良事件CRFs(AE域)都可以识别/收集 "左臂麻痹"。在这两个领域中,CAT变量的值可以是 "NEUROTOXICITY"。
b. 需要多个数据集来采集同一主题的数据的情况。根据
肿瘤学的例子,左臂麻木的存在和开始及停止日期可以报告为不良事件(AE域)报告,而事件的严重性则在多次访问中被捕获,并记录为 "发现"(FA数据集)。在这两种情况下,-CAT变量的值都可以是"神经毒性(NEUROTOXICITY)"。
c. 有必要用多个域来捕获一起收集的数据,并且有隐含的关系,也许在相关记录(RELREC)的特殊用途数据集中确定。
例如:压力测试数据的收集可以捕获以下内容。
i. 关于测试的发生、开始、停止和持续时间的信息(PR域)。
ii. 压力测试期间记录的生命体征(VS域)。
iii. 在压力测试期间进行的治疗(如氧气)(在干预域Interventions domain)。
在这种情况下,在3个独立的领域中记录的压力测试期间收集的数据可能都有--CAT/--SCAT值(STRESS TEST),表明数据是在压力测试期间收集的。
Differences Between Grouping Variables
--CAT/--SCAT和--GRPID之间的主要区别是。
1. --CAT/--SCAT是在收集数据之前就知道(确定)的。
2. 2. --CAT/--SCAT的数值是跨主题(subject)的分组数据。
3. --CAT/--SCAT可能有一些受控的术语。
4. --GRPID通常在数据收集期间或之后由发起人决定分配。
5. --GRPID仅在一个主题内对数据进行分组。
6. --GRPID值由申办者定义,不会受到控制术语的影响。
因此,在不同科目中相同的数据通常在--CAT/--SCAT中更合适,而在不同科目中不同的数据通常在--GRPID中更合适。
例如,作为所有受试者已知的综合治疗的一部分而使用的伴随药物(例如,"Mayo Clinic Regimen"),更适合使用使用-CAT/-SCAT来标识该药物是该治疗方案的一部分更为合适。记录在严重不良事件(SAE)中的药物组,使用--GRPID更为合适,因为不同受试者的分组可能会有所不同。
在基于查找一般观察类的领域中,-RESCAT变量可用于事后分类结果。--相比之下,-CAT和-SCAT通常由申办者定义或由研究者使用在收集时使用,而不是在评估Findings结果的价值后使用。