2022-10-01

昨天上午复习了前天学的知识,随后被Deep Learning与生信组合吸引了注意,不过看了一些文献和公众号推送,觉得还是不能太理解。

下午继续写开题报告,下载了很多关于蛋白质组学的毕业论文,理清了思路,大概完成了框架。

晚上开始学习生信,昨天主要是一些代码的学习。

GEO数据的下载和提取(摘取自生信技能树):

#数据下载

rm(list = ls())

options(stringsAsFactors = F)

library(GEOquery)

gse = "GSE42872"

eSet <- getGEO(gse,

               destdir = '.',(下载到当前目录)

               getGPL = F)(不要注释文件)

#(1)提取表达矩阵exp

exp <- exprs(eSet[[1]])

exp[1:4,1:4] (这里主要是为了看数据,是不是log后的,可以range看范围)

#exp = log2(exp+1)

#(2)提取临床信息

pd <- pData(eSet[[1]])

#(3)调整pd的行名顺序与exp列名完全一致(这步很重要,如果落下了后面的分析全错)

p = identical(rownames(pd),colnames(exp));p

if(!p) exp =exp[,match(rownames(pd),colnames(exp))]

#(4)提取芯片平台编号

gpl <- eSet[[1]]@annotation

save(gse,pd,exp,gpl,file ="step1output.Rdata")

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容