生物信息数据库的使用

superqun 原创于简书

手工目录:

目录

Q1:如何在肺癌数据库中选出k-ras突变的病人样本。

1. 使用GDC下载。

image

GDC portal页面中选择Exploration并进入。
在case选项卡中选择

  • primary->Bronchus and lung;
  • Program->TCGA;
  • roject->TCGA-LUAD;

在Gene选项卡搜索kras,选择了202例kras突变的点击 View Files in Repository.然后可以在Repository中选择需要下载kras突变的病例的相关文件。

image

2.通过UCSC xena下载kras基因突变的肺腺癌LUAD样本

UCSC xena中的study中选择LUAD
first variable中选择phenotypic(表型)和sample type(病例类型)
second variable中在Genomic选项下选择KRAS并注明是somatic mutation

在过滤中分别过滤出tumormutation
然后通过download as tsv下载数据。

image

image

Q2:查询TP53基因突变/CNG/高表达对乳腺癌生存预后的影响。有哪些方法。适用场景是什么

xena网站绘制

在xena网站中选择BRCA癌症。
first variable:选择phenotypic(和sample type来为稍后过滤正常组织做准备。
second variable:选择Genomic并输入TP53来确认基因,并注明Gene Expression
过滤:在顶部过滤出tumor数据。
成图:在第二变量栏中右上角点击more然后选择 Kaplan Meier Plot

image

image

突变和CNV同理

oncolnc网站绘制

oncolnc可以通过基因获取在某个癌症中的表达情况。在oncolnc输入TP53,选择BRCA癌症类型。进入生存曲线生成洁面,选择高表达和低表达的比例。例如:50:50表示表达数据从高到低前50%到后50%进行分组。生成生存曲线。还可以点击下载原始数据,可以通过其他途径进行分析。

image

通过第三方软件:r语言或者prism利用原始数据绘制生存分析图(已经get到目标样本的有关生存的临床信息)

几种方法的比较

生存曲线绘制 xena oncoln GDC数据自构
数据时效
原始数据下载 yes^1 yes yes
难易程度 mid easy very hard
曲线结构调整 no yes yes

1:需要通过UCSC xena的DATA HUBS下载

Q3: 如何找到口腔癌(OSCC)(oral cavity cancer sample)的样本

在TCGA的分类中被没有OSCC的数据,只有Head and Neck Cancer(HNSC)头颈癌。需要在头颈癌样本中寻找属于oral cavity cancer的病人样本。

通过Xena DATA HUBS获取OSCC样本

通过Xena DATA HUBS,在HNSC网页中找到Head and Neck Cancer(HNSC)数据中的phenotype->phtnotype数据

然后通过anatomic_neoplasm_subvision数据,筛选出oral cavity数据,得到OSCC样本。数据类型如下图

image

通过Xena visualization 来获取OSCC样本

在xena网站中选择HNSC癌症。
first variable:选择anatomic_neoplasm_subvision(这个选项不在basic选项中)
second variable:选择其他需要研究的数据。例如sample type来区分正常组织和癌症组织。
然后通过筛选出oral cavity cancer的病人样本,然后下载tsv格式样本

也可以通过GDC下载clinical数据进行选择。

Q4: METABRIC项目

METABRIC(乳腺癌国际联盟的分子分类学)是一项加拿大与英国合作项目,旨在根据有助于确定最佳治疗过程的分子特征将乳腺肿瘤分类为更多的亚类。
链接

Q5: 在脑胶质瘤中找到GFR3-TACC3基因融合的样本信息

TCGA数据库中可以挖掘基因融合现象。但是因为数据都是限制数据无法自行下载。有的网站进行了整合。网站http://www.tumorfusions.org/对融合基因进行了分析和整理。通过该网站可以查询到基因融合现象。

image

Navigation中进入Cancer Type然后选择GBM,在结果中再次检索GFR3,得到有关GFR3的基因融合情况。
image

Q6:TCGA中数据类型和格式

DNAseq数据

获取方式:通过全外显子组测序(wxs)和全基因组测序(wgs)获得

[图片上传失败...(image-2b9c2b-1557670945395)]

数据类型 说明 格式
Aligned Reads GRCh38 比对 BAM格式文件
RAW simple somatic mutation 制表符分隔文件,其中包含与基因组位置相关的基因型信息。这里首先鉴定基因组变体。 VCF文件
Annotated somatic mutation 对RAW ssm文件的注释,注释信息包括突变的生物学背景 VCF文件
Aggregrated somatic Mutation 聚合的VCF文件,包含所有案例可用的突变信息。 MAF文件(tab分割)
Masked somatic Mutation 删除了可能出错的信息。是ASM的修正信息 MAF文件

RNAseq数据

获取方式:通过RNAseq测序的HT-seq数据整合,比对GRCh38基因组然后量化。

image
数据类型 说明 格式
RNA-Seq Alignment 和GRCh38比对的文件 BAM格式文件
HT-Seq Read Counts 通过HT-seq软件比对的结果文件,记录counts数 TXT格式文件
STAR Reads Counts 通过STAR软件比对的结果文件,记录counts数 TSV格式文件
FPKM文件 标准化的,消除测序深度和基因长度的因素 TXT格式文件
FPKM-UQ FPKM公式进行修改。分母不再是编码蛋白的reads总数而是,75%的read数^* TXT格式文件

miRNASeq数据

数据类型 说明 格式
Aligned Reads 和GRCh38比对的文件 BAM文件
miRNA Expression Quantification miRNA ID和read数和标准化后的reads-per-million-miRNA-mapped TXT格式

拷贝数变异CNV

获取方式:Affymetrix SNP 6.0芯片,GDC进一步将拷贝数值转换为 log2(拷贝数/2)
数据与格式

数据类型 说明 格式
Copy Number Segment 将连续的染色体坐标和基因坐标、平均芯片强度、和每个片段对应的探针数量 向对应的文件 TXT文件
Masked Copy Number Segment 有和CNS文件一样的信息,只不过出去了一些有已知突变的探针 TXT文件
Copy Number Estimate 从MSCNS中产生,记录了基因水平的拷贝增加/减少 TXT文件

甲基化 Methylation

获取方式:通过illumina 的HM27和HM450芯片来测量已知CpG岛的甲基化程度,以此为beta数据,beta=M/(M+U)

数据类型 说明 格式
Methylation Beta Value 甲基化beta值:将探针和CPG位点和相关的Metadata 数据关联 TXT文件

VCF & MAF 格式说明:
https://docs.gdc.cancer.gov/Data/File_Formats/MAF_Format/

Q7:突变的排他性检测。例如乳腺癌中检测TP53突变而PIK3CA未突变的样本信息

在所有的乳腺癌样本中(1099例)需要过滤出TP53突变样本(360例),然后过滤出PIK3CA突变的样本(339例),其次下载乳腺癌样本中进行了DNAseq,有突变信息的样本(987例)。然后根据样本进行筛选。
值得一提,在cBioPortal中能够进行基因突变的排他性检测。但是,只能判断log2 Odds Ratio、p值、q没有提供具体的样本ID

image

如何获取生成有突变信息的样本

在TCGA的Exploration中选择 Case -> Primary Site : Breast -> Program : TCGA。然后在右侧试图窗口选择Genes-> # SSM Affected Case in Cohort -> 360/987 -> 987 -> 下载Jason文件(包含除突变和基因外的信息)

image

Q8: TCGA数据库和衍生网页工具、生信数据库的使用。

UCSC网页工具

1.可视化
UCSC可视化是功能十分强大的。可以实现:

  • Kaplan Meier分析:查看某基因对生存影响。
  • 比较正常组织和癌症组织生物特征的关系
  • 探索基因和临床数据的关系。例如查找基因位点甲基化与基因表达的关系。或者两个基因的工表达关系。
  • 比较野生型样本和某突变样本进行比较分析。
image

2.Data hub
UCSC还可以进行便于分析的格式的数据下载。以GDC数据库为例,提供有copy number, DNA methylation, gene expression RNASeq, phonotype, somatic mutation等信息。

image

cbiportal数据库

cbioportal数据库是一个基因组数据分析的可视化工具。目前为止收录了169个来源于TCGA、ICGC等多个数据库和已经发表论文的研究数据库。提供的数据类型有 somatic mutation、copy number variation、gene expression RNASeq、DNA methylation、蛋白丰度,数据都是可以下载的。

image

cbioportal可以通过在线分析也可以进行数据下载。数据选择可以输入多个基因。而且cbioportal可以分析

  • Oncoprint
  • Cancer Types Summary 癌症类型。
  • Mutation Exclusivity 突变排他性分析:可以分析两个基因:A、B。包括A Not B、B Not A、 Both 、Neither四种逻辑。
  • plots 图表:可以进行例如copy number、mRNA表达、突变、临床attribution等信息的两两之间的绘图展示,由于提供给了填色功能,允许按照Mutation type、 Copy Number Alteration来进行填色。所以可以看作是三个维度的信息。
  • Mutation 突变信息:包括了突变类型和突变位点,并以可视化展示,如图。
Mutation 突变信息
  • co-expression 共表达情况:查看目的基因和哪些基因有共表达情况如图,这里看目的基因和哪些基因有共表达情况,如果需要看多个目的基因之间的共表达,需要在图表中搜索。或者用xena可视化。
co-expression 共表达情况
  • Enrichment富集:分为Mutation 通过突变分析基因富集、Copy-number 通过拷贝数分析基因富集、 mRNA 通过mRNA分析基因富集:在三个水平来探索在目的基因有变化的样本中,其他基因的变卦情况。在mRNA表达中,至少一个基因变化的样本组称为Altered group,未发生变化的成为unaltered group.Enrichment可以查看基因发生突变、拷贝增加、mRNA表达变化会分别影响哪些基因的变化,并列举变化程度和可信度。 例如,如图,探索AR信号通路中SCOX9等在内的十个基因 在mRNA表达变化的Altered group中,μ in unaltered group是基因表达变化组的样本中平均表达值的log2转换值。σ in altered group是平均标准差。选择点个基因可以在左下柱状图中查看具体的数据分布。
Enrichment 富集
  • Network:展示了所选的基因和在肿瘤样本中变化比较显著(是什么显著?显著突变还是显著高表达?未解)的另外50个基因的基因互作关系网络。(your query genes and the 50 most frequently altered neighbor genes )。可以下载关系网络用cytoscape进行分析。
image
  • DownloadDownloadable Data Files:提供所选基因的拷贝变化情况(Copy-number Alterations)、突变情况、受影响的样本信息、这些样本分别在哪些基因上有变化。(都是很简略的信息)。Gene alternation Frequency:在目的基因列表中,有哪些基因的Alternation在样本中出现频率的列表。Type of genetic Alterations Across All Sample:列出发生genetic Alterations——基因变化(拷贝变化cnv或者突变)的类型。几种CNV(拷贝变化)类型:AMP-Amplified-?,HOMDEL-Homozygously Deleted-纯合删除,GAIN-Gained-?,HETLOSS-Heterozygously Deleted-杂合删除

    Download

cbioportal和UCSC xena的区别是设计思路是xena是用户来探索少量个已知基因在样本中的生物学规律和联系,作图丰富多样可以十分丰富地自己设计图形坐标系统,可以过滤样本来求更高净准度,实现精准针对。cbioportal是发现和目的基因的关联,而且是为处理大量基因list而设计的,不能过滤样本,而且实现的图表类型自定义空间比较小,图表类型比较少。cbioportal适合在已经有部分目的基因方向不是很明确,想要以此为基础研究扩展出更多信息。xena的可视化适合单个基因、有方向的研究。

firebrowse

网址http://www.firebrowse.org/
使用情景:firebrowse网站是将TCGA的数据进行了全面分析。提供有突变全景图、拷贝变异情况等。另外firebrowse提供了TCGA分析报告。可以提供例如在乳腺癌中哪些基因的CNG和mRNA表达增加最相关、哪些基因的表达和甲基化最相关等等这些top信息。

image

firebrowse适合在一个癌症领域最起初的探究把握。是比较前期的了解使用。

oncolnc

专门绘制生存曲线的网站。在Q2:查询TP53基因突变/CNG/高表达对乳腺癌生存预后的影响。有哪些方法。适用场景是什么中有介绍

gepia网站

提供有便捷地查询基因在肿瘤/正常组织的表达情况。还提供有其他功能,但是常用的是基因在肿瘤和正常的表达情况。

image
  1. 这里面的正常组织是使用了GTEx数据库的数据的。
  2. 使用的癌症数据是TCGA癌症数据、使用的正常组织是TCGA的正常组织和GTEx数据。
  3. 如果需要绝对严谨的数据还是结合TCGA的数据自行分析

tanric

主要针对ncRNA建立的数据库。


image

花费了挺大的心血整理,如果认为文章对您有些许帮助,还望点个喜欢呀。我会持续更新的!

赠人玫瑰,手有余香。感谢你的阅读。虽然我也不知道会不会有人读。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容