今天群里有一个人发了这样一个问题,在CRF上肿瘤评估数据mapping到SDTM数据集的过程中,自己想放在TUCAT/TRCAT这两个变量;但是另一个同事又想放在TUGRPID/TRGRPID里面。
肿瘤相关domain的做法跟一般finding类的做法有些不一致。
不知道大家发现没有,不管是在IG3.2,还是最新的IG3.4,TU/TR这两个数据集里面都没有列出--CAT/--SCAT变量(但是也可以添加),后面具体举出的例子里面也没有,而是用--GRPID来代替。为什么没有用--CAT="靶病灶";--CAT="非靶病灶";--CAT="新病灶";那可不可以这样呢?
IG里面也有专门的一小节介绍了SDTM中的分组分类变量,IG3.3是在4.2.6,但是说实话,看完之后不是很清楚,虽然知道--CAT/--SCAT变量是across subjects;--GRPID是within subjects。所以今天就想说说我的理解,也想跟大家探讨一下,如果大家有什么想法,欢迎留言。
Grouping variables are Identifiers and Qualifiers variables, such as the --CAT (Category) and --SCAT (Subcategory), that group records in the SDTM domains/datasets and can be assigned by sponsors to categorize topic-variable values.
注意这个topic-variable values,--CAT/--SCAT是用来对主题变量的值进行分组,很常见的就是LB中的LBCAT=“血常规”;LBCAT=“血生化”等等。
大家也可以将STUDYID/DOMAIN看做是分组变量,比如STUDYID="AB123"可以看做是所有不同受试者的记录都是在这个研究之内的记录;STUDYID="AB456"又是另一个研究的记录;
domain也是同样的道理,所有DOMAIN 值相同的记录都是描述该域的记录,--CAT/--SCAT的值可以在domain中更进一步的分组。IG上举了AE-MH之间关联的--CAT取值,这里我们不讨论,大家可以自己看IG。
--GRPID这个变量是对同一个usubjid的记录进一步分组,很常见的在肿瘤试验中,会收集受试者的既往治疗方案,某个受试者可能会有不同的治疗方案,然后这个方案里面包含各种各样具体的药物;比如治疗方案=“卡铂+顺铂”;然后CMTRT="卡铂";CMTRT="顺铂"总共不同时间的5条记录,这里的治疗方案放在CMGRPID没有什么问题,也很好理解。
但是的话如果你用CMCAT=“卡铂+顺铂”,这个只适用于某个受试者,不一定适用于其他受试者。
写到这的时候,我们是不是可以理解成--CAT/--SCAT里面的值要适用于所有的受试者?
我们今天主要是讨论靶病灶、非靶病灶、新病灶为什么IG上没有放在--CAT里面,如果引用上面的那句总结,是不是可能因为有些受试者可能没有非靶病灶或者新病灶,这样一说感觉还挺有道理的。
我们继续讨论,如果说TUORRES的值已经指明了是靶病灶还是非靶病灶还是新病灶,就没必要添加--CAT或者--GRPID变量,这个还可以理解;但是TR中,是对病灶测量的一系列数据,TRORRES就不能用靶病灶还是非靶病灶还是新病灶这些值了。
但是我们还是要区分一下这3大类,因为后面输出listing的时候一般是按照靶病灶,非靶病灶,新病灶3张listing分别出listing的,肯定要有一个分类变量来筛选记录,TU其实最好也要加上(不加上也行,但是我也做过TUGRPID赋值靶病灶、非靶病灶、新病灶),因为我们通过TULNKID-TRLNKID就能获取TU中的病灶部位那些信息。对TR来说,受试者可能没有肿瘤状态、甚至长径短径那些信息,这个我们在试验之前是不清楚的。
其实在IG上最后总结的一段话中,其实就能看出一些端倪了
所以不知道我讲明白了或者大家看IG上的解释能理解它们之间的区别吗?
然后,最后讲一句,一般我们在做TU的时候,一般是不做TUSTAT这个变量的,只输出有病灶记录的数据,并且不同病灶一定一个独一无二的病灶编号。在IG3.4中,多了一个特别的例子,但是同样没有做成TUSTAT。
如果有讲的不合适的地方欢迎指出