我现在很少写SAS方面的文章,主要还是想多分享一些CDISC方面的东西。今天就先简单介绍一下什么是define.xml,尽量不介绍过多的专业名词。
在我们入职培训的时候,几乎不会介绍define.xml,在3个月的时间内能了解SAS和SDTM就很不错了。所以工作中的很多东西都是要靠我们自己结合项目去理解和总结学习的。
define.xml,也被称作Case Report Tabulation Data Definition Specifications (CRT-DDS),它长下面这样
讲通俗点,这就像一份说明书,不过不是用PDF格式的文件来说明,而是用XML格式,这是基于XML(可扩展标记语言( EXtensible Markup Language))的特性来决定的:
机器可读
中立的平台
不依赖于系统或供应商
标准化的数据传输、交换和使用
可以定义自己的元素
等等等....
我们创建了aCRF,SDTM数据集、ADaM数据集、当我们把这些东西递交给监管机构的时候,我们不能一股脑塞给他们然后什么都不管,说你自己看吧,这就是我创建的数据集,里面有这些变量(如果只提交数据集,只能解释到这一步了)
但是各个数据集里面的变量它来自哪里?CRF上收集的东西对应你数据集里面的哪个变量?值有哪些?作用是什么?如果值是衍生来的,衍生方法是什么?这些你都得在define.xml里面说明,这也是define.xml的作用,你要把监管机构的reviewer当做小白,详细准确地向他们说明你递交的这些东西,也就是回答上面的这些问题。
说到这,你会不会觉得这很像我们工作中用到的SPEC,没错,其实我觉得你其实就可以把SPEC当做一个没有完善的define。如果说我们创建的SDTM数据集里面的数据叫做数据,那么下面红框中的这一系列东西就叫做“元数据”,也就是所谓的METADATA,向别人清晰准确地描述你的数据。
我们继续点击define.xml文件,看下是什么样的。
比如我现在点到Tabulation Datasets 里的DM,
当reviewer跟我一样点击到这的时候,他就知道这些变量都是存在于一个叫做DM.XPT格式的数据集,然后SUBJID这个变量的对应于CRF上的第3页,出生日期变量收集于CRF上的第6页,值也是从这里收集,当他点击这些超链接的时候,他可以直接跳到我们的aCRF进行查阅,也就是下面这样
如果某些变量的值是我们衍生来的,他可以查阅derivation/comments列,对于有受控术语的变量,他也直接点击链接进行查看,知道这个变量有哪些受控术语。
如果某个变量的值是通过一些算法计算出来的,一般我们的SPEC会有专门的一个Computational Algorithms sheet(上面的SPEC没体现出)
上面介绍的这些只是define.xml的一小部分,但是我想大家现在应该能基本了解define.xml是干什么的吧。
总结一下就是:
define.xml规范定义了可用来描述所提交的数据集和变量的元数据结构,为审核人员清楚地了解每个数据集和变量的用法、结构和内容。提高了审核效率。
那么SDRG和ADRG又是什么?
SDRG全称是Study Data Reviewer’s Guides(临床数据审阅指南),一般还会在前面加上nSDRG(the prefix ‘n’ designates ‘nonclinical’)或者cSDRG(the prefix ‘c’ designates ‘clinical’),用来区分非临床还是临床。
RG应描述任何特殊的考虑、指示或一致性问题,以方便审查员使用提交的数据,并帮助审查员理解研究报告和数据之间的关系。下面是SDRG的主要内容
对于P21报的一些issue我们解决不了的,需要在这里面进行解释
ADRG就是Analysis Data Reviewer’s Guide,作用差不多。
关于SDRG和ADRG的介绍比较少,网上的说明也比较少,等以后有更深的理解再详细解释一下。
至于define.xml更详细的内容,怎么生成(大多数还是通过公司的宏),可能遇到的问题,后面会继续写文章分享。
有人说我写文章做分享是闲的蛋疼,听到后真的是难以接受,我觉得这是对我们所有写这行文章的作者的否定。尤其是写这篇文章的时候,一直在想这句话,我觉得自己花大量时间把一个东西讲的大多数人都听的明白,本是一件值得肯定的事,但是在某些人眼里却是闲得蛋疼。
掀桌子了,好吧,确实是很闲,是短视频和游戏不香吗。你们也不必要劝,这个比被骂不专业还难受,只要在这行业,就一直留疤了。