今天听了一节关于GEO数据库的课,GEO是什么,又是一头雾水,强迫基因受环境影响出现短暂的表达,赶紧搜索了解下,GEO(Gene Expression Omnibus database)是由NCBI负责维护的一个数据库,设计初衷是为了收集整理各种表达芯片数据,但是后来也加入了甲基化芯片,lncRNA,miRNA,CNV芯片等各种芯片,甚至高通量测序数据,从文章拿到了GSE的study ID号,登录GEO网站,输入GSE的study ID,就可以看到关于该study的所以描述信息,是用的什么测序平台,测了多少个样本,数据分析等等(GEO的解释摘自于生信菜鸟团的整理:http://www.bio-info-trainee.com/tag/geo)
但是有些GSE序列在GEO网站没有提供GEO2R分析(如GSE111229)。
利用GEO数据库的GEO2R工具分析一个GSE的study ID,操作如下:
-
登录GEO官网
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?
-
输入study ID号
GSE24673 点击“Go”
-
用GEO2R分析,翻到最底页,就会看到有蓝色图标“Analyze with GEO2R”点击运行。
-
分组,这里分两组,输入英文名字后,按enter键
-
分别命两个组的名字,自己命名如“tumor”,“normal”
-
选中3个GSM序列放到tumor里,归为第一组。
-
选中4个GSM序列放到normal里,归为第二组
-
点击运行,翻到页底,点击“top 250”运行。
-
运行中,这过程有点慢,需要耐心等待...
-
查看结果1,运行好之后会主动展现一些结果。
-
查看结果2,根据自己想要查看的结果,可以输出(保存)已分析好的结果。
-
也可根据自己的需求查看其它运行的代码,比如查看R脚本,而且可以复制。如果在操作上有不懂的,可以看GEO官网上的视频,视频里有整个过程的详细讲解,点击“YouTube”。
今天感谢生信技能树齐老师的授课与指导。
课程分享
生信技能树全球公益巡讲
(https://mp.weixin.qq.com/s/E9ykuIbc-2Ja9HOY0bn_6g)
B站公益74小时生信工程师教学视频合辑
(https://mp.weixin.qq.com/s/IyFK7l_WBAiUgqQi8O7Hxw)
招学徒: