一、Origin的定义
Origin是Define,XML中数据集变量的一个元数据属性(Metadata Attribute),这个属性用于说明数据的来源。在Define文件中,所有变量的Origin都应该有值。如果一个变量定义了Value Level Metadata (VLM), 那么Origin属性要么在变量层面(Variable Level)定义,要么在值层面(Value Level)定义。
关于Origin的标准属于,在SDTMIG中有详细的介绍(v3.2, 4.1.1.8节),这里简单描述一下:
- CRF: Data collected on CRF.
- eDT: Data receied via external data transfer.
- Derived: Defived data are not directly collected on the CRF but are calculated by an algorithm or reproducible rule, which is dependent upon other data values.
- Assigned: A value that is determined by individual judgement rather than collected as part of the CRF.
- Protocol: A value only specified in protocol and not appear on a CRF.
二、Origin的使用规则
具体的使用规则如下:
Rule | Origin |
---|---|
Collected on the CRF (CRF上收集) | CRF |
Collected as a pre-printed value on CRF (作为CRF上预印值 收集) | CRF |
Mapped from a look-up (从查找表中映射) | Assigned |
Mapped to complete a record (映射以完成一条记录) | Assigned |
Mapped from external data sources (从外部数据源映射) | eDT |
Defined in protocol (方案中定义) | Protocol |
Derived data (派生出的数据) | Derived |
三、相关规则说明及举例
1. Data collected on the CRF,Origin = CRF
对于从CRF上具体Form直接收集的变量,其Orgin是CRF。如果CRF上直接收集的变量的长度超过200,从主变量中拆分的子变量的Origin也是CRF。
2. Data collected as a pre-printed value on CRF,Origin = CRF
有一些CRF收集的变量信息已经有预设值了,这些变量的Origin也是CRF。如下图的情况,CRF收集入组前60天受试者酒精饮料的摄入情况,这时候SUEVLINT(Evaluation Interval, 评价区间)的值“-P60D”是提前指定的,变量SUEVLINT的Origin为“CRF”。
3. Data mapped from look-up,Origin = Assigned
- 从CDSIC编码表或申办方编码表中映射的--TEST值
- 从LB查询表中映射的类似LBCAT、LBSCAT、LBSPEC的值
- 从CDSIC编码表或申办方编码表中映射的--STRESU的值
- --DECOD的值
4. Data mapped to complete a record,Origin = Assigned
- --PRESP, --REDOFL, --PHEPFL
这些变量的值不在CRF中收集,但是我们会填充值使记录完整。 - --SPID,--GRPID
这些变量是申办方定义的标识符,便于溯源到原始数据集,也便于RELREC中的数据集关联。
5. Data mapped from external data source, Origin = eDT
- 从电子临床数据集中映射的数据,比如调查细节,方案偏离
-
供应链管理批次以及盒文件的数据
-
来自于外部供应商的数据,比如实验室检查、心电图等
6. Data from Protocol, Origin = Protocol
- 不在CRF中收集且只在方案中注明的数据,比如STUDYID;试验设计变量 ARM,ELEMET,EPOCH...; EXDOSFRM...
7. Derived Data, Origin = Derived
Derive的数据不是直接从CRF上收集的,而是通过某种算法或可重复性规则计算得来的。
四、对于Origin,需要具体变量具体分析
1. EPOCH
-
在TA数据集中,EPOCH值是在Protocol中定义的,Origin为Protocol;
在SE以及以及其他数据集中,变量EPOCH的值是基于各元素的开始和结束时间生成的,Origin为Derived
2. VISIT
-
在TV数据集中,VISIT值是在Protocol中定义,Origin为“Protocol”;
-
在SV数据集中,非计划外访视是根据规则衍生出来,Origin为“Derived”;
-
SV中的VISIT信息作为参照表,其他数据集中的VISIT信息是参考参照表中的信息生成的,Origin为“Assigned”。