DAY10 生信技能树-数据挖掘第三期学习笔记

Ruizheng 的学习笔记

感谢 生信技能树 小洁老师

继续DAY9 的tips
1. 用limma包进行差异分析,要确保 group_list 和 exp 输入没错。
library(limma)
design=model.matrix(~group_list)
fit=lmFit(exp,design)
fit=eBayes(fit)
deg=topTable(fit,coef=2,number = Inf)
2. 非特异性探针,应该在注释文件中去除,不需要管
3. 多个探针对应一个基因:按照基因去重复,取均值,最大值,中位数都可用,但不是绝对正确。
用 deg[!duplicated(deg$symbol),] 去重,注意向量按逻辑值取子集,逻辑向量需要和向量元素个数一致。
4. 用探针做差异分析后,用注释文件进行注释
5. 当两个数据框列名不一致时,inner_join(, by = c("symbol"="SYMBOL") 或者修改列名
6. R script 里面 if (F) {} 和 # ---- 可以折叠代码
7. setReadable() 可以让 "enrichResult" 对象 里面富集到的基因变得可读。
8. 画barplot dotplot 时,得到的 term 名称过长怎么办

文本太长怎样处理?

9. barplot dotplot 我想用自己的映射怎么办?

dotplot展示富集分析结果
dotplot支持使用formula指定x轴变量

10. pheatmap画出热图 as.ggplot() 以后,legend 和 annotation legend 不能通过 patchwork "collect" 怎么办?

可以尝试将热图的 legend 与其他 ggplot2 生成的图片采用同一个图例; 自己手动改吧…


代码流程小抄

复杂数据及分析

1. 配对数据

eg. GSE5109 GSE103455
差异分析的时候加一个pairinfo
pairinfo = factor(c(1,2,1,3,2,3))
design = model.matrix(~group_list + pairinfo)

配对样本可视化

2. 多分组数据

eg. GSE474 GSE106191

  1. 选出一个分组作为对照,其他分组分别与对照进行差异分析
  2. 两两比较


    多分组数据可视化

    三个以上分组的考虑 WGCNA

3. 多个series联合分析

考虑批次效应

  1. 选择来自同一芯片平台的series
  2. 需要处理批次效应的 Batch effect

函数
limma::removeBatchEffect()
sva::ComBat()

4. 标准代码后的后续分析

来一场Cytoscape的旅行之出行

生信鸡汤

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容