一、TCGA的样本名:TCGA - A6 - 6650 - 01A - 11R - 1774 - 07
TCGA:Project 项目名称
A6:Tissue source site,组织来源编码组织来源代码
(更多见https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes)
6650:Participant 科研参与者
01A:样本类型,前面的数字01-09为肿瘤,10-29为正常或癌旁样本。字母代表质量,A为佳,B次之。所以在TCGA样本名中,这个位置最常见的就是01和11
(更多见:https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes)
11R:Portion, 同属于一个患者组织的不同部分的顺序编号,同一组织会分割为100-120mg的部分,分别使用。R为分析的分子类型。
(更多对应关系见:https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/portion-analyte-codes)
1774:Plate, 在一系列96孔板中的顺序,值大表示制板越晚。即为去除batch effect时的batch依据。
07:Center, 测序或鉴定中心编码.
(更多编码详见:https://tcga-data.nci.nih.gov/datareports/codeTablesReport.htm?codeTable=center)
二、按分析目的:
1.疾病vs正常,样本分组,得到差异基因
2.依据某基因高低表达,进行样本分组
3.风险risk计算,按中值进行高低风险组分组,两组进行各种比较,如KM分析
4.根据免疫评分分组,
而病人的sample,信息比较多,这些信息如果你的课题用得到,完全可以利用起来进行自由分组。
比如:
A病人,是51,复发乳腺癌,
B病人,37,原发乳腺癌
C病人,52,原发乳腺癌
你可以按年龄进行分组,那么>50和<50,就是A+C的组 vs B组
按原发 vs 复发,那么A vs B+C组
样本是可以根据你分析的目的进行分组的,这个一定要自由,这个也再次回答了有同学问,数据别人分析了,自己是否还能分析?
ps:各种癌症缩写
ACC 腺样囊性癌
BLCA 膀胱癌
BRCA 乳腺癌
CESC 宫颈鳞状细胞癌
CHOL 胆癌
COAD 结肠癌
DLBC 淋巴癌
ESCA 食管癌
GBMLGG 脑癌
HNSC 头颈部鳞癌
KICH 嫌色细胞癌
KIRC 肾透明细胞癌
KIRP 乳头状肾细胞癌
LAML 骨髓癌
LIHC 肝癌
LUAD 肺腺癌
LUSC 肺鳞状细胞癌
MESO 胸膜癌
OV 卵巢癌
PAAD 胰腺癌
PCPG 肾上腺癌
PRAD 前列腺癌
READ 直肠癌
SARC 软组织癌
SKCM 皮肤癌
STAD 胃癌
TGCT 睾丸癌
THCA 甲状腺癌
THYM 胸腺癌
UCEC 子宫内膜癌
UCS 子宫癌
UVM 眼癌