TCGA-101-课程介绍-需要哪些背景知识
掌握以下基础知识:
概念、研究范围、数据来源、数据存储、数据格式、癌症相关背景知识
数据挖掘前提:R语言编程基础
TCGA-102-课程导读-如何使用我的github代码
以KIRC的miRNA实战举例:也可应用在其他测序方式的数据
1.下载github代码到自己电脑
2.通过“KIRC.Rproj”定位到当前的工作环境
3.setwd("scrips/")(代码都位于'scrips')
4.安装包,再library('')载入,失败时重新安装即可。
5.另外数据库(GDC、RTCGA、Xena)也可拿到表达矩阵,推荐Xena
6.差异分析的中间结果都存储在Rdata这个文件夹里,load可看到
7.有三种R包得到的结果(DESeq_DEG、edgeR_DEG、DEG_limma_voom)
8.miRNA不认识的基因名可去找miRNA命名方式
9.step02:三种R包的比较结果
10.step03-bath-logRank:表达矩阵只要tumor,临床信息去掉NA,名称简化,age分成了group
11.step04-batch-coxp:校正gender、age、stage后,group是否依然有差异性。此包可画森林图:每个基因的风险因子及p-value。
TCGA-103-数据库大有作用-不仅仅是灌水
现有文章和公共数据库做比较,自己感兴趣的基因在什么通路有作用,在公共数据库做验证,避免做更多实验。
TCGA大作用:癌症肿瘤相关数据,致力于解决人类癌症的基础问题,理解多组学数据如何和自己的数据做比较。
第08周-头颈癌:通过表达谱分类:非负矩阵分解
第15周-单细胞转录组
第25周-2433乳腺癌
第01周-探究为何一个TNBC对gefitinib:kmplot数据库
第09周-细胞因子相关基因和细胞周期相关基因是有关系的,下载TCGA的数据,自己数据中相关的数据在TCGA是否有相关性
第12周-TCGA表达量看共表达情况、TCGA查询两个基因相关性;KRAS基因突变;需要了解somatic mutation和germline mutation相关概念;找到哪些基因在哪些样本中突变,接下来可以把这些样本过滤出来。
第13周-台湾OSCC
第14周-结合TCGA数据画主成分分析
第18周-
第21周-GSVA、METABRIC做生存分析。高表达基因的病人死的比较快-就有意义
第25周-有表达量就可以分型、通路
第26周-韩国人乳腺癌数据自己170个病人
第29周-FGFR3-TACC3基因融合,目前没有数据能下载到融合信息,但有一个融合基因数据库
TCGA-201-背景介绍基网页工具大全
TCGA官网-publication列表
最重要有6家单位
tCGA Platform Code:HG-U133_plus_2
最重要了解多组学数据是什么形式:可变剪切
并不是所有数据都能下载,原始数据不能下载,须申请根据自己的癌症背景,我们能拿到3、4 级结果拷贝数结果、sometic mutation等
1.测序数据>比对BWA>去PCR重复>质量控制校正:得到bam文件
2.放在IGV
3.QC包括
somatic/germinal mutation
Indels
Purity/ploidy 算法来测purity :做数据挖掘可把purity下载来做数据矫正,提高逼格
拷贝数变异
从TCGA我们可以得到哪些数据?
外显子数据
表达数据
甲基化芯片数据
蛋白质组学数据
小rna测序数据
拷贝数芯片
临床信息
一些统计原理和软件用法可教
癌症背景知识重要,癌症具有异质性
TCGA关于乳腺癌所发的重要文章如下
TCGA可以拿到哪些数据如下
网页工具大全
GDC:TCGA数据改版后放在这里了,其中Exploration和Legacy Archive这两个链接可着重留意
Exploration:通过根据各种癌症挑选样本,再挑选6中数据,再挑选自己需要的
-
cbioportal:不是根据癌症种类分类,而是根据paper 来分类
800多个样本和1000个样本是不会差别太大的,TCGA2006年开始,但是样本是2012年才引入的
数据库接口?
BROAD:根据癌症分类
oncllnc:以上数据库是储存数据,此数据库主要看某个基因在某个癌症中是否有相关性,可看到某个基因在各个癌症中的表达量
tanric:lncRNA,目前可通过tCGA提取数据,已不需要改网址
TCIA:TCGA纳入的病理学和影像学资料\免疫
ICGC:比TCGA更大
TCGA-202-其它数据库介绍
TCGA重点是癌症背景知识:各个癌症发的各个文章的介绍
其他相关数据库:GTEx和CCLE
-
GTEx:死人(车祸等)700多个人,每人20个组织。有了基因型再加表达数据就可以做eQTL的分析>做TCGA通常会拿eQTL做正常人的对照
注意tpm\reads值,值得探索
CCLE:告诉你每种CCLE对应哪种细胞系?
有些文章会把TCGA、GTEx、CCLE合并在一起分析。
TCGA-203-使用Xena网页工具
UCSC Xena> 在线工具,可探索TCGA纳入的30多种癌症的所有病人的所有类型的数据,并不需要编程
1.TCGA Breast Cancer (1247samples)1000个病人,测了多种组学数据>
![]每个基因的所有数据在这里都有
![]搜索到一篇文章,以CRC(colon and rectal cancer)生存分析要加sample type的筛选标准
看methylation和表达量的相关性
以上为表达量数据,可以有很多组合,比如突变
PANCAN:所有癌症在一起,多一个属性叫癌症属性。癌症种类合在一起。
再举个🌰
在R里画
rm(list=ls())
options(stringsAsFactors=F)
a=read.table('denseDataOnlyDownload -1.tsv',fill = T)
a=na.omit(a)#去掉na值
head(a)
cor(a[,5:37])#head(a)后看到甲基化和探针为第5列到最后一列-37,cor甲基化相关性值
再回到网页工具,选择array中基因芯片表达量