013 | 课题设计-样本就那么多,怎么按自己需要提取信息分析新内容?

一、TCGA的样本名TCGA - A6 - 6650 - 01A - 11R1774 - 07

TCGA:Project 项目名称

A6:Tissue source site,组织来源编码组织来源代码

(更多见https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes

6650:Participant 科研参与者

01A:样本类型,前面的数字01-09为肿瘤,10-29为正常或癌旁样本。字母代表质量,A为佳,B次之。所以在TCGA样本名中,这个位置最常见的就是01和11

(更多见:https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes

11R:Portion, 同属于一个患者组织的不同部分的顺序编号,同一组织会分割为100-120mg的部分,分别使用。R为分析的分子类型。

(更多对应关系见:https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/portion-analyte-codes

1774:Plate, 在一系列96孔板中的顺序,值大表示制板越晚。即为去除batch effect时的batch依据。

07:Center, 测序或鉴定中心编码.

(更多编码详见:https://tcga-data.nci.nih.gov/datareports/codeTablesReport.htm?codeTable=center

二、按分析目的:

1.疾病vs正常,样本分组,得到差异基因

2.依据某基因高低表达,进行样本分组

3.风险risk计算,按中值进行高低风险组分组,两组进行各种比较,如KM分析

4.根据免疫评分分组,

而病人的sample,信息比较多,这些信息如果你的课题用得到,完全可以利用起来进行自由分组。

比如:

A病人,是51,复发乳腺癌,

B病人,37,原发乳腺癌

C病人,52,原发乳腺癌

你可以按年龄进行分组,那么>50和<50,就是A+C的组 vs B组

按原发 vs 复发,那么A vs B+C组

样本是可以根据你分析的目的进行分组的,这个一定要自由,这个也再次回答了有同学问,数据别人分析了,自己是否还能分析?

ps:各种癌症缩写

ACC 腺样囊性癌

BLCA 膀胱癌

BRCA 乳腺癌

CESC 宫颈鳞状细胞癌

CHOL 胆癌

COAD 结肠癌

DLBC 淋巴癌

ESCA 食管癌

GBMLGG 脑癌

HNSC 头颈部鳞癌

KICH 嫌色细胞癌

KIRC 肾透明细胞癌

KIRP 乳头状肾细胞癌

LAML 骨髓癌

LIHC 肝癌

LUAD 肺腺癌

LUSC 肺鳞状细胞癌

MESO 胸膜癌

OV 卵巢癌

PAAD 胰腺癌

PCPG 肾上腺癌

PRAD 前列腺癌

READ 直肠癌

SARC 软组织癌

SKCM 皮肤癌

STAD 胃癌

TGCT 睾丸癌

THCA 甲状腺癌

THYM 胸腺癌

UCEC 子宫内膜癌

UCS 子宫癌

UVM 眼癌

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容