TCGA条码

简介

条码(Barcode)是TCGA纳入的每一个标本的专有标识符。

条码结构

条码结构
条码各部分的含义

编制流程

理解条码的编制流程(见下图),有助于我们更好的解读条码。​

Barcode编制流程图

简而言之,编码机构BRS(Biospeciman Core Resource)根据来源机构(Tissue Source Site,TSS)和捐献者(Participation),给予编号TCGA-02 和 TCGA-02-0001,根据组织类型(Sample)如癌组织、正常组织等,编为TCGA-02-0001-01(01-09为癌组织,10-14为正常组织,组织类型编码详见https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes)。同一种组织的标本又会被分装进不同容器(Vial),同一容器内又可分为多个小份(Portion),进一步编为 TCGA-02-0001-01B和TCGA-02-0001-01B-02。样品送至检测机构后,制备成不同的分析物(Analyte)检测,用不同字母编码,例如D表示DNA,R表示RNA。同一份分析物在检测过程中被加到检测板的某一加样孔中,分别编号 TCGA-02-0001-01B-02D-0182和TCGA-02-0001-01B-02D-0182-06。

组织类型编码
分析物编码

应用

以上大致介绍了TCGA条码包含的信息。其中我们最为关注实际上是来自不同捐献者的组织类型,往往决定分组,例如根据捐献者种族分为亚裔和非亚裔,根据组织类型分为肿瘤组、正常对照组。

代码举例:

num<-as.numeric(substring(id,14,15))  #截取字符串后转为数字
group_list=ifelse(num%in%1:9,”Tumor”,”Normal”)  #ifelse实现分组

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容