3.2 GEO数据库常用分析工具

GEO数据库常用分析工具

  • GEO DataSets提供的分析工具
  • GEO2R

GEO DataSets提供的分析工具

在GEO DataSets的详情界面有一个Data Analysis Tools板块,在这里由一些实用的分析工具

GEO DataSets详情界面

Find genes

  • Find gene name or symbol:查找该DataSet中某一基因的Profile
  • Find genes that are up/down for this condition(s):将数据按照特定的标准分组,在该DataSet中查找在这种分组条件下组间存在差异表达的基因的Profile

Compare 2 sets of samples

用于获取在选定的两组样本之间差异表达的基因

  1. 选择检验方法和显著性水平
  2. 对数据进行分组
  3. 进行比较

选择检验方法和显著性水平

可选择的检验方法有

  • Two-tailed t-test (A vs B):双尾t检验
  • Ont-tailed t-test (A > B):单尾t检验
  • Ont-tailed t-test (A < B):单尾t检验
  • Value means difference:不知道是啥
  • Rank means difference:不知道是啥,大概是秩和之类的东西吧

可选择的显著性水平有

  • 0.100
  • 0.050
  • 0.010

对数据进行分组

我们需要将数据分成两组,点击Select which Samples to put in Group A and Group B

选择面板

面板中共有两个样本名称的列表,每一列代表一个组中的样本,点击样本名称就可以选中相应的样本

进行比较

点击Query Group A vs. B即可进行比较

Cluster heatmaps

用于生成聚类分析的热图,聚类分析的方法有以下几种

  • Hierarchical
  • Partitional (K-means/K-medians)
  • By location on chromosome

Hierarchical

方法

可修改的参数有Distance和Linkage,点击Display即可进行聚类分析
Distance可设置为

  • Uncentered Correlation
  • Pearson Correlation
  • Euclidean

Linkage可设置为

  • Average/UPGMA
  • Single
  • Complete
结果
  • 分析完成后会显示一张热图,点击热图,会显示一个选择范围,可以调整选区的高度,选中感兴趣的基因
  • 点击Stack up或双击选区即可显示选中的基因详细的信息和表达情况
  • 点击Download可以下载选中的基因的表达数据
  • 点击Plot values可以显示选中的基因的表达量的可视化结果,结果页面中提供了三个按钮
    • Download displayed data:下载途中的基因数据,效果与之前的Donwload按钮一直
    • Show heat map region:跳转到热图界面,效果与之前的Stack up按钮一致
    • View profiles in Entrez:检索图中基因的Profiles
结果热图

Partitional (K-means/K-medians)

方法
  1. 在Color Options中可以选择高表达的基因和低表达的基因用什么颜色表示
  2. 在Clustering Options中可以选择聚类分析的选项,可修改的选项有Distance、K-method和Clusters, k
    • Distance
      • Uncentered Correlation
      • Pearson Correlation
      • Euclidean
    • K-method
      • Mean
      • Median
    • Clusters, k:2-15
  3. 点击Display即可进行聚类分析
结果

分析结束后根据Clusters, k设定的数量将基因分成若干组,每组生成一张热图,点击热图即可显示热图中基因详细的信息和表达情况

聚类分析结果

点击热图,同样会出现一个选区,在这里同样可以使用Download、Plot values、View in Entrez、Stack up等功能

结果热图

By location on chromosome

选择这一选项后GEO会按照基因所在的染色体对DataSet中的基因进行分类,并显示热图
点击热图,同样会出现一个选区,在这里同样可以使用Download、Plot values、View in Entrez、Stack up等功能

按染色体位置分类结果

Experiment design and value distribution

用于质量控制,判断数据是否经过归一化

GEO BLAST

网址:https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_SPEC=GeoBlast&PAGE_TYPE=BlastSearch

GEO2R

GEO2R(GEO to R)是GEO数据库自带的数据分析工具。GEO2R可以通过可视化的方式对基因表达谱进行统计学分析,在操作上非常方便,但是,某些数据集不提供GEO2R功能,且当样本数目较大时,手动选取样本也比较不便。此外,GEO2R的进行分析时单次分析的运算时间被限制在10分钟以内,因此如果样本数量很大,有可能无法完成分析。下面对GEO2R的基本操作进行介绍,关于GEO2R的更多信息请参考官方文档https://www.ncbi.nlm.nih.gov/geo/info/geo2r.html

操作步骤

  1. 在DataSet的Reference Series中找到对应的Series或直接搜索Series,在对应的页面中即可找到Analyze with GEO2R按钮
  2. 在靠近页面底端的位置,可以找到Analyze with GEO2R按钮,点击即可打开GEO2R操作界面
  3. 页面加载完成后,可以看到一张记录了所有样本信息的表格。这里需要我们手动对样本进行分组。点击Define groups,输入组名之后按Enter即可建立一个新分组。由于不同的数据集的实验设计有所不同,分组应该根据实际情况灵活进行。
  4. 选中表格中的样本,点击组名,即可将选中的样本加入这一组中。
  5. 完成分组后,在GEO2R选项卡中点击Analyze即可对数据进行分析
  6. 分析完成后,网页下方会显示分析结果。Visualization板块中显示了不同格式的图形可视化结果,包括常见的火山图、维恩图等。Top differentially expressed genes板块中则列出了表达差异具有统计学意义的基因,点击Download full table即可将这张表下载下来。

字段

点击Select columns可以增加或减少结果表格中的字段。字段可分为数据(Data columns)和注释(Annotation columns)两类。注释字段与数据集的注释文件有关,不同的数据集可选的字段可能有所不同。
数据部分各字段的含义见下表

字段 含义
Adj P-value 调整P值
P-value P值
t-statistic t值(检验统计量)
B-value Log odds
logFC Log fold change(差异倍数的对数),正数代表上调,负数代表下调
F-statisti F值(检验统计量)

选项

在Option选项卡中我们可以指定在进行差异分析时的统计学方法以及图表的参数。

  • Apply adjustment to the P-values:计算调整P值的方法,默认为Benjamini & Hochberg false discovery rate
  • Apply log transformation to the data:GEO2R会对实验数据进行检测,如果有必要,GEO2R就会自动将数据取对数。这个选项可以强制GEO2R进行或不进行对数转换,默认为自动检测。Limma包(进行差异分析时使用的R包)需要使用经过对数转换的数据,但是原始数据是否已经经过对数转换是不确定的,因此如果原始数据未经对数转换,就需要对其取对数,否则结果就会出错(比如原本有差异的数据做不出差异)。
  • Apply limma precision weights (vooma):使用vomma函数估计均值-方差关系,并用它来计算适当的观测水平权重
  • Force normalization:对表达数据使用quantile normalization
  • Category of Platform annotation to display on results:GEO2R会对数据进行注释。原始的数据一般只包括探针名称、样本名称、表达数据等信息,而经过注释的数据会显示包括探针对应的基因名称在内的多种有用的信息。注释信息的来源有两种:
    • Submitter supplied:由实验者提交的注释信息,其样式和内容可能有较大的差异,而且可能没有及时更新
    • NCBI generated:有NCBI自动生成并定期更新的注释信息、
  • Plot displays:这组选项主要控制图表的生成
    • Significance level cut-off:默认情况下,GEO2R认为当P小于0.05时差异是显著的(在火山图等图表中这些有显著差异的基因会用特殊的颜色标注),如果有特殊需要,这个标准可以在这里修改。
    • Volcano and MA plot contrasts:火山图、维恩图等图表只能用于两个数据组之间的比较,因此如果定义了多个数据组的话,GEO2R会对这些数据组进行两两组合,每个组合生成一张图表。但是这个组合的上限是五组,因此如果定义了很多数据组,可以在这里选择要生成图表的数据组合。

剖面图

在Profile graph选项卡中输入探针的名称,可以显示该探针检测的不同样本的表达情况
点击View data for GPL...可以查看平台文件(平台文件通常会记录探针和基因的对应情况)

R脚本

在R script选项卡中可以看到GEO2R使用的R语言脚本。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,816评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,729评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,300评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,780评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,890评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,084评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,151评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,912评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,355评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,666评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,809评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,504评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,150评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,121评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,628评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,724评论 2 351

推荐阅读更多精彩内容