随着高通量技术的快速发展,TCGA、GTEx等公共数据库的建立开放,海量的数据呈现在科研工作者的面前。
但是随之而来的问题也逐渐显现,像小编我这样无任何生信分析基础的人如何有效整理和利用这些已有的大数据信息呢?
隔行如隔山,从前的我面对生信望而却步,但是读完今天的文章,相信你一定可以像我一样玩转生信。
接下来就对即将介绍的GEPIA做一次全面分析。
官网地址为http://gepia.cancer-pku.cn/,该网站由北京大学的团队开发造福了广大科研、临床工作者。
下面依次介绍其Single Gene Analysis、Cancer Type Analysis、Multiple Gene Analysis三大板块的功能。
01
Single Gene Analysis
这里以KRAS基因作为演示,在搜索栏输入KRAS,即使基因有别称或其它家族,系统也会帮你筛选检索,点击GoPIA。
检索的结果左侧是对KRAS基因的介绍。此外还包括该基因在其他数据库的快速链接,包括GeneCard、NCBI、Ensembl等。
右侧的Bodymap则比较生动形象,绿色代表KRAS在正常组织的表达,红色代表KRAS在肿瘤组织的表达。
下拉是KRAS基因在癌组织及癌旁组织中的表达情况,红色代表该基因在该种癌症中明显高表达,绿色代表该基因在该种癌症中明显低表达。
例如这里KRAS基因在胰腺癌(PAAD)和睾丸生殖细胞肿瘤(TGCT)这两种肿瘤中明显高表达。该功能特别适用于某个基因的pancancer分析。
02
Cancer Type Analysis
Cancer Type Analysis分为Differential genes analysis和Most Significant Survival Genes两类功能。
Differential genes analysis可对选定癌种的差异基因分析汇总,并具体在每一条染色体表示。
Most Significant Survival Genes能够对特定病种里所有与预后差异显著相关的基因的汇总。这个适合研一刚入学的同学寻找课题。
03
Multiple Gene Analysis
Multiple Gene Analysis分为Multiple Gene Comparison、Correlation Analysis和Dimensionality Reduction三大功能。
Multiple Gene Comparison是对多个目标基因的表达分析。在Gene list输入一些你想要分析的基因,然后在Dataset里选择所需要的肿瘤类型点击Add进行添加,在Matched Norma data里可以选择样本来源,最后点击“Plot”绘图。
Correlation Analysis这个功能适合了解两个基因之间的关联性,手动输入Gene A和Gene B选择你所希望分析的两个基因相关性的肿瘤或组织来源,同样点击“Plot”绘图。
Dimensionality Reduction是多基因的降维分析,一般使用的是PCA主成分分析(Principal Component Analysis),它可以利用基因,对样本进行主成分分析,能将肿瘤和正常组织分开的基因,并对应绘制2维和3维的PCA图,被认为具有很好的诊断价值。但是GEPIA中这一功能目前可能还未完善,总是处于报错阶段。
放在最后讲的功能也是大多数科研工作者、临床医生最关注的差异表达和生存分析。基因能够差异表达是前提,没有差异就不大可能用于诊断,也不适合做治疗靶点,如果该基因与生产相关,则更是锦上添花。
Box plot可以对特定基因的特定癌种的正常组织对比肿瘤组织的表达分析。选定癌种,选定阈值以及纳入组织类型,就可以得到即用的表达箱图,有红色星星的表示有差异。
Survival Plots生存分析是大部分科研工作者及临床医生所关注的重中之重,GEPIA拥有高度自由的生存分析及快速的出图速度,让人称奇。首先输入所研究的基因,然后在“Datasets Selection”处选定要分析的癌种,点击“Plot”就可以生成生存曲线图并自动生成Logrank和HR值。
总的来说,GEPIA拥有的功能非常全面且操作简洁,能满足我们基本的生信数据分析,非常适合常规实验室文章的临床数据补充和验证。