DAY9 生信技能树-数据挖掘第三期学习笔记

Ruizheng 的学习笔记

感谢 生信技能树 小洁老师

芯片注释:探针与基因的对应关系

注释来源:

  1. GEO数据库中GPL页面的表格
  2. Bioconductor 的注释包
    用R获取芯片探针与基因的对应关系三部曲
  3. 官网下载对应产品的注视表格
  4. 自主注释
    芯片探针序列的基因组注释
    自主注释流程
富集分析

输入数据:差异基因的entrezid; 所有基因的entrezid

id转换:bitr()

输出结果解读

KEGG

气泡图

下面的图用enrichplot画
cnetplot

cnetplot

共同基因

共同基因的通路

go-plot

代码分析流程

流程图

贴一个Jimmy老师的github GEO数据挖掘代码
https://github.com/jmzeng1314/GEO

下面只会记录一些运行代码过程中的知识点和心得
1. eSet[[1]]是Biobase包创建的ExpressionSet格式的文件,exprs()提取表达矩阵,pData()提取临床信息,eSet[[1]]@annotation 提取注释平台名称
图片.png
2. 关于分组信息
  • 简单的分组可以通过rep(, each = )自己生成
  • 利用 ifelse 和 stringr::str_detect 进行嵌套
  • 设置参考水平,通过 factor( , levels = c("control", "treat"))实现,对照在前,处理在后
3. 探针注释

翻一下这篇文章前面提到的四种方法
用R获取芯片探针与基因的对应关系三部曲
果子老师的经验分享

一些 tips

  1. ls() 查看环境中存在的变量
  2. ls("package:tidyr") 查看R包中存在的变量
  3. toTable() 得到探针 ID 的注释矩阵
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。