TCGA视频课程笔记(上)

TCGA-101-课程介绍-需要哪些背景知识

基于TCGA28篇教程

掌握以下基础知识:

概念、研究范围、数据来源、数据存储、数据格式、癌症相关背景知识

数据挖掘前提:R语言编程基础

TCGA-102-课程导读-如何使用我的github代码

jmzeng1314/tcga_example

以KIRC的miRNA实战举例:也可应用在其他测序方式的数据

1.下载github代码到自己电脑

2.通过“KIRC.Rproj”定位到当前的工作环境

3.setwd("scrips/")(代码都位于'scrips')

4.安装包,再library('')载入,失败时重新安装即可。

5.另外数据库(GDC、RTCGA、Xena)也可拿到表达矩阵,推荐Xena

6.差异分析的中间结果都存储在Rdata这个文件夹里,load可看到

7.有三种R包得到的结果(DESeq_DEG、edgeR_DEG、DEG_limma_voom)

8.miRNA不认识的基因名可去找miRNA命名方式

9.step02:三种R包的比较结果

10.step03-bath-logRank:表达矩阵只要tumor,临床信息去掉NA,名称简化,age分成了group

11.step04-batch-coxp:校正gender、age、stage后,group是否依然有差异性。此包可画森林图:每个基因的风险因子及p-value。

TCGA-103-数据库大有作用-不仅仅是灌水

生物信息学文献阅读笔记

现有文章和公共数据库做比较,自己感兴趣的基因在什么通路有作用,在公共数据库做验证,避免做更多实验。

TCGA大作用:癌症肿瘤相关数据,致力于解决人类癌症的基础问题,理解多组学数据如何和自己的数据做比较。

第08周-头颈癌:通过表达谱分类:非负矩阵分解

第15周-单细胞转录组

第25周-2433乳腺癌

第01周-探究为何一个TNBC对gefitinib:kmplot数据库

第09周-细胞因子相关基因和细胞周期相关基因是有关系的,下载TCGA的数据,自己数据中相关的数据在TCGA是否有相关性

第12周-TCGA表达量看共表达情况、TCGA查询两个基因相关性;KRAS基因突变;需要了解somatic mutation和germline mutation相关概念;找到哪些基因在哪些样本中突变,接下来可以把这些样本过滤出来。

第13周-台湾OSCC

第14周-结合TCGA数据画主成分分析

第18周-

第21周-GSVA、METABRIC做生存分析。高表达基因的病人死的比较快-就有意义

第25周-有表达量就可以分型、通路

第26周-韩国人乳腺癌数据自己170个病人

第29周-FGFR3-TACC3基因融合,目前没有数据能下载到融合信息,但有一个融合基因数据库

TCGA-201-背景介绍基网页工具大全

TCGA官网-publication列表

最重要有6家单位

tCGA Platform Code:HG-U133_plus_2

最重要了解多组学数据是什么形式:可变剪切

并不是所有数据都能下载,原始数据不能下载,须申请根据自己的癌症背景,我们能拿到3、4 级结果拷贝数结果、sometic mutation等

1.测序数据>比对BWA>去PCR重复>质量控制校正:得到bam文件

2.放在IGV

3.QC包括

  • somatic/germinal mutation

  • Indels

  • Purity/ploidy 算法来测purity :做数据挖掘可把purity下载来做数据矫正,提高逼格

  • 拷贝数变异

从TCGA我们可以得到哪些数据?

  • 外显子数据

  • 表达数据

  • 甲基化芯片数据

  • 蛋白质组学数据

  • 小rna测序数据

  • 拷贝数芯片

  • 临床信息

一些统计原理和软件用法可教

癌症背景知识重要,癌症具有异质性

TCGA关于乳腺癌所发的重要文章如下

image

TCGA可以拿到哪些数据如下

image

网页工具大全

image
  • GDC:TCGA数据改版后放在这里了,其中Exploration和Legacy Archive这两个链接可着重留意

  • Exploration:通过根据各种癌症挑选样本,再挑选6中数据,再挑选自己需要的

  • cbioportal:不是根据癌症种类分类,而是根据paper 来分类

    800多个样本和1000个样本是不会差别太大的,TCGA2006年开始,但是样本是2012年才引入的

  • 数据库接口?

  • BROAD:根据癌症分类

  • oncllnc:以上数据库是储存数据,此数据库主要看某个基因在某个癌症中是否有相关性,可看到某个基因在各个癌症中的表达量

  • tanric:lncRNA,目前可通过tCGA提取数据,已不需要改网址

  • TCIA:TCGA纳入的病理学和影像学资料\免疫

  • ICGC:比TCGA更大

TCGA-202-其它数据库介绍

TCGA重点是癌症背景知识:各个癌症发的各个文章的介绍

有参组学的NGS数据分析的异同点分析腾讯视频

其他相关数据库:GTEx和CCLE

  • GTEx:死人(车祸等)700多个人,每人20个组织。有了基因型再加表达数据就可以做eQTL的分析>做TCGA通常会拿eQTL做正常人的对照

    image
image
image

注意tpm\reads值,值得探索

image
image

CCLE:告诉你每种CCLE对应哪种细胞系?

有些文章会把TCGA、GTEx、CCLE合并在一起分析。

TCGA-203-使用Xena网页工具

UCSC Xena> 在线工具,可探索TCGA纳入的30多种癌症的所有病人的所有类型的数据,并不需要编程

1.TCGA Breast Cancer (1247samples)1000个病人,测了多种组学数据>

![]
image

每个基因的所有数据在这里都有

![]
image
image
image
image
image
image

搜索到一篇文章,以CRC(colon and rectal cancer)生存分析要加sample type的筛选标准

image
image
image
image

看methylation和表达量的相关性

image
image
image

教程地址

以上为表达量数据,可以有很多组合,比如突变

PANCAN:所有癌症在一起,多一个属性叫癌症属性。癌症种类合在一起。

再举个🌰

image
image
image

在R里画

rm(list=ls())
options(stringsAsFactors=F)
a=read.table('denseDataOnlyDownload -1.tsv',fill = T)
a=na.omit(a)#去掉na值
head(a)
cor(a[,5:37])#head(a)后看到甲基化和探针为第5列到最后一列-37,cor甲基化相关性值

再回到网页工具,选择array中基因芯片表达量

image
image
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容