怎么从从GEO数据库(NCBI GEO)下载适合的基因表达数据集

从GEO数据库(NCBI GEO)下载适合的基因表达数据集通常包括以下步骤:

1、网址链接:主页 - GEO - NCBI


2、确定研究目标:(最主要包含以下三点)

① 确定你需要的实验类型(如转录组数据、甲基化数据等)。

② 明确物种(如人类、小鼠、植物等)。

③ 选择实验条件(如对照组与处理组的差异研究,疾病状态等)。


3、访问GEO数据库

① 打开上面提供的链接

②  在搜索框输入关键词,例如:

基因表达数据:RNA-seq或microarray。

实验条件:cancer、drought stress。

物种:Arabidopsis thaliana。

③ 点击Search

例如:


4、筛选数据集

① 搜索结果会显示数据集(GEO Series,GSE)和样本(GEO Samples,GSM)。

② 选择一个合适的数据集,点击其 GSE编号 进入详细页面。

③ 检查以下信息:

- 实验描述:确认是否符合你的需求。

- 样本数:样本数量是否足够大(建议不少于20个)。

- 数据类型:是测序(RNA-seq)还是芯片(Microarray)。


5、下载数据

方法 1:手动下载

1)在数据集页面,找到 Download family 选项。

2)下载 .soft.gz 或 .txt.gz 文件(包括样本信息和表达数据)。

3)如果有原始数据(raw data),可以下载 *.CEL 文件(芯片)或 .fastq 文件(测序)。

方法 2:使用R语言批量下载

安装GEOquery包、下载并加载数据。

注:

示例数据集,可以根据需求选择合适的GSE编号,并按照上述步骤下载和处理数据。

人类癌症数据:GSE62944(癌症基因表达矩阵)。

植物逆境胁迫:GSE152480(拟南芥干旱胁迫数据)。

小鼠模型研究:GSE102299(小鼠肝脏基因表达数据)。


6、数据预处理

标准化: 如果是芯片数据,可能需要对数转换或量化归一化。

过滤低表达基因: 移除表达水平较低的基因,以提高分析的信噪比。

注释基因名:GEO数据集可能包含探针信息,需要使用注释文件将其转换为基因名称。

7、 运行WGCNA或其他分析

完成预处理后,就可以将数据直接用于WGCNA等后续分析。


8、后续分析

根据研究目标,可以进行以下内容的分析:

差异表达分析(如DESeq2、limma)。

共表达网络分析(如WGCNA)。

聚类或分类分析(如PCA、分层聚类)。

后面一一介绍。



生物信息学领域非常广泛,难以一次说尽。我们下次继续更新,一起深入学习生物信息学的内容!

喜欢的宝子们点个赞吧~码字不易,且行且珍惜~

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
禁止转载,如需转载请通过简信或评论联系作者。

相关阅读更多精彩内容

友情链接更多精彩内容