190102 【生信技能树】GEO数据挖掘

1.项目总览及Github介绍

介绍整个项目
简介Github,注册,下载其中代码

  • R语言用文件夹+project方式组织,定位所有数据和代码

2.通用文献阅读及规律

  • identification of the interaction network of hub genes for melanoma treated with vemurafenib based on microarray data
    文献导读,注意文章中找到差异性的方法
    例子中是p值<0.01,|logFC|≥2
  • 差异基因要通过阈值控制,~200多差异比较正常
    -至少看20篇相关文章,提炼脉络,选择GSE- 表达矩阵-差异分析-5大数据库的注释-PPI等网络

了解GEO数据库(生新技能树公众号,解读GEO)

GSE号-修改URL即可到数据库
refseq_id, GEOquery
芯片基础知识(生信技能树论坛)
HG-U133_Plus_2(经典芯片)

3. 数据下载的3种方式

  • ①下载rawdata(不推荐)
  • ②下载表达矩阵(matrix)
  • ③ R语言直接读取GSE号 (GEOquery)
    getGEO("GSE42549", GSEMatrix = TRUE, AnnotGPL = FALSE, getGPL= FALSE)
  • 不同芯片用不同的R包

4.ID转换技巧大全

downGSE

  • geneID,探针和基因不是一一对应的,且基因本身就是多种多样(entrez ID和symbol是最重要的)
  • ID转换,library(hgu95av2.db )
    不同平台对应不同R包,可谷歌
  • ID转换实操,

5. 了解你的表达矩阵

实操,跑代码,了解PCA,hclust图等

6. 差异分析

limma对芯片数据做差异分析
需要

  • 表达矩阵
  • 分组矩阵
  • 差异比较矩阵
    实现步骤
  • lmFit
  • eBayes
  • topTable
    高清代码的input

7. 火山图、热图制作及美化

火山图、超几何分布
plot(nrDEGlogFC, -log10(nrDEGP.Value))
bitr(gene,fromType = "ENTREZID", toType = c("ENSEMBL","SYMBOL"), OrgDb = org.Hs.eg,db)

8. KEGG-GO等数据库的注释及GSEA分析

实操

9. 收尾的几点建议

多看paper,多练习

10. 批量生存分析

Github,jimmy账户:jmzeng1314
好好学R语言

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容