之前分析TCGA数据都是直接匹配barcode,其规则懂的不多。相信有不少同志也有这方面困惑。
这里给出两份资料,一份是TCGA官方英文介绍,链接为
https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode
这是实战TCGA数据库的又一个知识点,如果你已经对TCGA有浅显的认识,那么我们应该根据研究方向找到自己的癌症类型,TCGA有一台完整的癌症分型,慢慢这个分型也成为了主流,你别不服气,如果我们有这样的科研实力和共享魄力,一样可以得到科研界的认可,可是路漫漫,幸好我们都在路上,至少现在的统计显示,国内发表关于TCGA的文章数据已经过半数了。
最重要的癌症类型有32个,会带领大家一个一个来认识,以后分析学习的时候可以直接查看,如果是全英文的,那你会说,这个我也知道,放心,当然会给大家简单中文检索的。他们分别是:
ACC 腺样囊性癌
BLCA 膀胱癌
BRCA 乳腺癌
CESC 宫颈鳞状细胞癌
CHOL 胆癌
COAD 结肠癌
DLBC 淋巴癌
ESCA 食管癌
GBMLGG 脑癌
HNSC 头颈部鳞癌
KICH 嫌色细胞癌
KIRC 肾透明细胞癌
KIRP 乳头状肾细胞癌
LAML 骨髓癌
LIHC 肝癌
LUAD 肺腺癌
LUSC 肺鳞状细胞癌
MESO 胸膜癌
OV 卵巢癌
PAAD 胰腺癌
PCPG 肾上腺癌
PRAD 前列腺癌
READ 直肠癌
SARC 软组织癌
SKCM 皮肤癌
STAD 胃癌
TGCT 睾丸癌
THCA 甲状腺癌
THYM 胸腺癌
UCEC 子宫内膜癌
UCS 子宫癌
UVM 眼癌
这样展示给大家,会不会很唐突,大家保存就是了,整理是需要时间和经理的,具体每个癌症的详情,还需要大家一起去完善。不知道有找到自己需要研究的癌症类型呢?找到了癌症的类型,带大家来认识一下癌症大数据里最常见,最有标志性的,样本代号,这个估计也要变成国际标准了,相信科研组在考虑如何命名是也是下足了功夫,因为TCGA数据量大,涉及的样本多,每个样本的表达数据类型有多,太简单的话无法检索需求啊,太难更不行了,会被嫌弃的!
举个样本例子给大家:
TCGA-02-0001-01C-01D-0182-01
就这么一个简单的代号,包含着多少信息,又包含着多少科研工作的热情和心血。
TCGA命名每个字段的意义
Project-TSS-Participant-Sample&Vial-Portion&Analyte-Plate-Center
TCGA:Project 项目名称
02:TSS 组织来源代码
0001:Participant 科研参与者
01:Sample 样本号
C:Vial 样本序列中样本的阶数
01:Portion 顺序中部分的次序
D:Analyte
0182:Plate 顺序中的板的顺序
01:Center 测序鉴定
看了这么多,是不是有点糊涂了,其实这个代码中,最重要的就是第四个字段,也就是01C,准确的说01对我们来说非常重要,这个sample的数字是从01-29的,其中01-09是tumor,也就是癌症样本;其中10-29是normal,也就是癌旁;这个对于每个研究者才是最重要的,当然,这个必须记住,只有记住这个,后期才能做差异分析,生存分析,如果连肿瘤样本和癌旁样本都区分不了,何谈后续分析呢?
业内有人戏说:“一入TCGA深似海”,这可见癌症谱图有多大,我们有多渺小,对于科研数据,我们应该怀着一颗敬畏和空杯的心态,一步一步,不如TCGA大数据的殿堂,去挖掘对癌症分析、治疗有用的数据库,也不枉TCGA曾经定下的目标和宏伟梦想。
作者:王诗翔
链接:https://www.jianshu.com/p/13906d3db205