GEPIA:点点鼠标分析TCGA数据-超高自由度

随着公共数据库的建立和开放,越来越多的研究者可以接触到测序数据,非常适合想我们这种“三无”研究者(无课题,无经费,无文章)运用公共数据找点事情干,可以是另辟蹊径从某个独特的视角重新分析已有的数据发发文章,也可以在没钱做测序的情况下看看自己研究的基因在别人的数据里是什么样子,积攒一些研究基础。不过想玩转生信大数据,面前总是隔着一座计算机编程的高山,门槛太高让众多小白望而却步。

今天就来介绍一个非常友好的TCGA数据分析和可视化的神奇网站。TCGA应该不用过多介绍了,癌症和肿瘤基因图谱计划,包含了最全面的测序数据。提起TCGA的数据分析网站,cBioPortal 的大名谁人不知,谁人不晓?不过今天要介绍的不是它,关于cBioPortal使用的文章已经铺天盖地了,我凑个啥热闹。今天要介绍的是另一款国人建造数据库,个人觉得在分析的自由度上面秒杀cBioPortal。更重要的是真好用的网站居然没有搜到太多的帖子来介绍,真是太不应该了。

好了, 写了那么一大段居然还没有出现主角的名字,我实在该打。当当当当~上图上链接!GEPIA(Gene Expression Profiling Interactive Analysis),基因表达谱数据动态分析,官方网站:http://gepia.cancer-pku.cn/index.html

GEPIA首页

界面是不是非常简洁干净?

This tool is developed by Zefang Tang, Chenwei Li and Boxi Kang of Zhang Lab, Peking University.
Tang, Z. et al. (2017) GEPIA: a web server for cancer and normal gene expression profiling and interactive analyses. Nucleic Acids Res, 10.1093/nar/gkx247.

该网站由北大张泽民教授团队开发,更新一下前人帖子所述的,目前已经发表了文章。记得引用!记得引用!!记得引用!!!(重要的事说三遍,这是对原创工作者的尊重)

The RNA-Seq datasets GEPIA used is based on the UCSC Xena project ( http://xena.ucsc.edu ), which are computed by a standard pipeline

由官方介绍可以看到,GEPIA数据库是基于UCSC Xena计划的数据获得的。从搜索栏可以看出,该网站的分析主要有三个板块。为了方便看,我用思维导向图的形式给大家总结出来。

GEPIA index.png

Single Gene Analysis

顾名思义,单基因分析,纵观感兴趣的基因在不同肿瘤中的概况。和大部分数据库一样,输入基因名的时候会出现下拉菜单,方便准确定位基因名。我们以网站给出的示例基因ERBB2检索。也可以从网页右上角的GoPIA进入,然后从Quick Search处输入,进行检索。两种方法都会跳转到同样的界面下。

ERBB2检索结果

检索出来的页面中有不同的标签,可以针对检索的基因进行各种分析,比如做表达水平图,生存分析,相关性分析等。一会儿慢慢说。

General 概况

首先是对ERBB2基因概况的介绍。包括该基因在其他数据库的快速链接,包括GeneCard,NCBI等。最拉风可爱的是右边这个Bodymap小人儿图,显示了该基因在人体不同器官组织中的表达情况,红色的表示肿瘤组织绿色的表示正常组织。颜色越深表示表达水平越高。ERBB2可能看不出非常大的差别,我找了两个奇葩一点的例子,一个是器官分布具有特异性,并且只在肿瘤中异常高表达;一个是肿瘤情况下该表达的器官低表达,不该表达的器官异常表达。

Bodymap1
Bodymap2

往下拉是ERBB2基因在各种肿瘤 / 正常组织中的表达水平展示,散点图和柱状图各取所需。看不懂癌症分类的缩写没关系,网站非常贴心的在最上面放了一个“Click here to get the extensio of tumor abbreviations”,点击即可显示这些所写的全程,也不会跳转页面或者弹出新的窗口。

dot plot
bar plot

再往下走是与正在检索的基因表达类似的基因,点击任意基因的名字就可以进入这个基因自己的GoPIA检索页面,对它进行单独分析。该页面是新建窗口弹出的,所以不用担心正在检索的基因找不到了,因此也可以同时查看多个基因,方便挑选合适的伙伴。

Expression DIY 表达水平作图

Expression DIY标签下可以对检索的基因进行表达水平的作图,从下拉菜单可以选择Profile散点图,Boxplot箱式图和Stage plot小提琴图。Multiple gene comparison不用管它,那是做多基因分析时用的。每一种格式的图都可以DIY作图的参数,选择呈现的癌种并对其进行排序,甚至颜色和大小。这里我特别想吐槽一句,不愧是国人的数据库,画起来就是快,刷刷刷!生成的图点击download或者右键进行下载,均是pdf格式。

Survival 生存分析

然后我们来看看激动人心的生存分析,毕竟对于医学研究来说,最关心的是研究对象是否具有临床意义。同样Survival标签也有下拉菜单,单基因分析时只用Survival Plots就可以了,另一个是多基因分析时用的。生存分析超高的自由度令人惊叹,配合作图的网速加成,是我强烈推荐这个数据库的原因。我们就来上图看看参数设置界面是怎么样的。

生存分析参数设置界面

首先在“Datasets Selection”处选定要分析的癌症肿瘤,点击“Plot”就可以生成生存曲线图。生存曲线图上面讲所有的参数进行了罗列,并计算了Logrank和HR值。不需要呈现的也可以通过勾选来去除。

生存曲线图

对于大部分研究来说,仅仅看看总生存(Overall Survival)就可以了,但是有些基因可能对总生存没有什么影响,但是却能左右疾病的进展和预后,仍然非常有意义。大部分生存在线工具,只能分析总生存,GEPIA非常全面的也未大家提供了分析PFS的选项。另外一个最大的优势是在于基因表达高低分组这里,上下限的cutoff可以自己定义,真的是想怎么分就可以怎么分,随心所欲。对应获得多少例分组到高表达,多少例分组到低表达,在生存曲线图上都显示记录了。虽然这样做出来的“有意义”的生存曲线多少有点玩数据嫌疑,可能无法提供多大的临床意义,但是对用于对基因的探索还是有帮助的,了解这个基因与患者生存因素相关的表达模式,为研究者提供参考。

Similar Gene

这里是General界面下相似基因的扩展页面,在参数选择上更加细分,可以罗列Top 1 到Top 9999999的相似性基因,是的,你没看错,Top 9999999,选择框里填多少都不报错,只是会死机……大家不要像我这么无聊的去尝试这个上限。当然,列那么多也没有什么意义了。此外,也可以选择分析相似基因的范围,是指定类型的肿瘤上的,或者是指定类型的癌旁上的,抑或者是组织特异性表达数据库里的。

Correlation 相关性分析

单基因分析里最后一个能做的就是单基因的相关性分析了。可以查看感兴趣的两个基因在指定的组织中表达的相关性。所以这个标签页也可以说是做multiple gene analysis分析的。Gene A和Gene B可以手动输入,使用的是HGNC数据库的Gene Symbol,当然我试了一下,用ERBB2另外一个名字,Her2也能认出来。但是想含有希腊字母的其他基因,如NF-kB,b-catenin,还是推荐使用Gene symbol,避免出错。

Correlation analysis

到这里,单基因能做的分析就做完了,是不是已经对课题设计有了些思路呢?或者已经获得了些可以用的分析结果?下面我们来看看多基因可以做些什么分析。

Multiple Gene Analysis

多基因分析时和单基因分析的套路一样,基因表达水平的呈现,相关性分析和PCA主成分分析。相关性分析和上述单基因分析时在同一个界面下,所以我们就不再复述,剩下的我们一个一个来看看。

Multiple Gene Comparison

这个在之前说到的Expression DIY标签下,最后一个。参数设置页面如下。可以在Gene list里给定一些基因,然后在Dataset里选择想分析肿瘤类型,Tissue Order里可以运用鼠标拖动排序,在选择栏里可以选择只看肿瘤样本还是匹配上正常组织的样本。同样点击“Plot”进行绘图。

Multiple Gene Comparison设置界面

这里想强调一下,几个基因或者几个癌种的比较就不要用这个功能来作图了,做出来的如下所示,巨丑。人家是做大数据分析的,那么请拿出点数据量来。太少的话,我推荐直接用单基因作图的方法做,然后在photoshop里面合并。

巨丑且没意义
要做就做这样的

光标停在图上时,左上角会出现一排选择按钮,从左到右第一个是直接保存图片,为png格式。如果不满意目前的配色,可以点击第二个按钮,save and edit plot in cloud。会跳转到另一个网站上,对图片进行修改和保存。这个网站就留给大家自己探索了。似乎是个专业进行数据可视化的网站,可以做各种图。需要注册。等我有空探索完,再来写个攻略。

save and edit plot in cloud

PCA 主成分分析

多基因的降维分析一般使用的是PCA主成分分析(Principal Component Analysis),主要原理和算法我们不需要详细了解,我们只要知道它可以将一系列基因,根据其表达模式,进行一个分析,使得表达相近的聚在一起。反过来,也可以利用基因,对样本进行主成分分析,能将肿瘤和正常组织分开的基因,被认为具有很好的诊断价值。一般基因2个或者3个主成分分析。也就是对应绘制2维和3维的PCA图。无奈,GEPIA不知道为啥,这一功能在我的电脑上总是报错。引用这篇文章的图进行说明,《PCA主成分分析原理及分析实践详细介绍》,侵删。

PC2
PC3

Cancer Type Analysis

针对癌症类型的研究和前面两块从基因出发,在特定的肿瘤中进行分析的思路不同,相反是从指定的某种肿瘤类型出发,找出最有意义的基因,可以是在肿瘤和正常之间存在表达差异基因,或者是最能有效对患者进行生存和疾病进展预后的基因。当然这种已经在不同文章里做烂了的分析,大家也别想在这个网站获得新奇的发现。个人认为只能是提供一些参考价值。开发者做出来也只是让网站的结构更加完整罢了。大家可以自己探索。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容

  • 使用cBioPortal进行复杂的癌症基因组和临床profiles整合分析(Y大宽原创,转载需要说明) 主要来自于...
    Y大宽阅读 73,196评论 10 127
  • 以下介绍引用自 表达谱芯片数据的基因功能富集分析 刘 明1 王米渠2 丁维俊2 综述 毕 锋1 审校 基因富...
    赵晨西西西西阅读 3,465评论 0 8
  • 按照惯例,学校的每个宿舍区一般都会在周末晚上举办社区有约的活动。本次是社区有约第49期,主题为大神教你学压花...
    悦小清阅读 965评论 0 1
  • 简单说,轮回,今生,前世,来生,是我们自己造业的因果关系。 而生命是什么?很多人认为是一个元神,一个灵魂,一个魂魄...
    天行武道养生阁阅读 890评论 0 4
  • 这几天,偶然间看到《滚蛋吧,拖延症》的课程,抱着一丝好奇心开启了我的学习之旅。不知为什么,越看越入迷,越看越...
    时光流年_阅读 405评论 0 0