GEO数据库视频学习笔记(了解你的表达矩阵)

继续上一篇笔记,这一个视频讲的是对表达矩阵进行各种的探索,所以视频的名称就叫“了解你的表达矩阵”,视频地址是:https://www.bilibili.com/video/BV1is411H7Hq?p=6

经过过滤探针(GEO数据库视频学习笔记(ID转换)),我们需要把ExprSet表达矩阵的行名(探针ID)换成基因名(从上一篇得到的ids表里提取):

#现在的表达矩阵是18821个基因,6个样品
> dim(exprSet)
[1] 18821     6
#将ids表里的行匹配到exprSet里
> ids = ids[match(rownames(exprSet),ids$probe_id),]
> dim(ids) #现在ids里的基因数和表达矩阵一致了
[1] 18821     2
> rownames(exprSet) = ids$symbol
> head(exprSet)
          GSM1052615 GSM1052616 GSM1052617 GSM1052618 GSM1052619 GSM1052620
LINC01128    8.75126    8.61650    8.81149    8.32067    8.41445    8.45208 
SAMD11       8.39069    8.52617    8.43338    9.17284    9.10216    9.14120
KLHL17       8.20228    8.30886    8.18518    8.13322    8.06453    8.15884
PLEKHN1      8.41004    8.37679    8.27521    8.34524    8.35557    8.44409
ISG15        7.72204    7.74572    7.78022    7.72308    7.53797    7.73401
AGRN         9.19237    9.10929    9.03668    9.94821    9.96994    9.99839

到此,表达矩阵就算是完成了。

(一)查看内参表达情况

下面可以看一下内参基因的表达情况,比如GAPDH:

> exprSet[rownames(exprSet)=="GAPDH",]
GSM1052615 GSM1052616 GSM1052617 GSM1052618 GSM1052619 GSM1052620 
   14.3187    14.3622    14.3638    14.4085    14.3569    14.3229 

可以看到大概是14左右,如何知道“14”是算表达高还是低呢?你可以对每一列的样品的基因做一个box看一下:

> boxplot(exprSet)

可以看到大部分样品的表达值在8左右,所以14算是很高的表达量了。如果你的管家基因的表达量低于平均水平,那么有可能你的探针ID和基因名转换的时候搞错了。

(二)查看表达矩阵分布图

接下来看一下表达矩阵的一些分布图:

> library(ggplot2) 
> library(reshape2)
#把表达矩阵转化成长list
> exprSet_L = melt(exprSet)
> colnames(exprSet_L) = c('group','sample','value')
#这里group的情况可以去GEO网页上显示的来命名,这里6个样品,分别是对照和药物处理,各3个重复,这里我只区分对照和处理,就不标明1,2,3了
> group_list = c(rep('control',3),rep('Vemurafenib',3))
#把长列表的表达矩阵里group一列命名成具体的样品名
> exprSet_L$group = rep(group_list,each = nrow(exprSet))
> head(exprSet_L)
    group     sample   value
1 control GSM1052615 8.75126
2 control GSM1052615 8.39069
3 control GSM1052615 8.20228
4 control GSM1052615 8.41004
5 control GSM1052615 7.72204
6 control GSM1052615 9.19237
> p = ggplot(exprSet_L,aes(x=sample,y= value,fill=group))+geom_boxplot()
> print(p)

这里要注意:如果你上面的图画出来,每一个样品中间那条线基本在同一水平线上,这些样品就可以在一起进行比较。如果相差很多,是不能进行比较的。说明不是一类的东西,或者说存在批次效应。

你还可以怎么获得group_list?

如果你用的是GEOquery包下载的表达矩阵:

gse <- getGEO('gse42872',GSEMatrix = TRUE, AnnotGPL = FALSE)
b = gse[[1]] #b是表达矩阵
tmp=pData(b)
View(tmp)



里面title这一列就是你的分组信息

也可以用小提琴图表示:

> p = ggplot(exprSet_L,aes(x=sample,y= value,fill=group))+geom_violin()
> print(p)
#图就不放了
(三)查看离群值

你还可以看这些样品里是否有离群值:

#看是否基因表达分布都差不多
> p = ggplot(exprSet_L,aes(value,col=group))+geom_density()+facet_wrap(~sample,nrow =4)
> print(p)
(四)hclust图
> hc = hclust(dist(t(exprSet)))
> plot(hc)

现在你可以根据这个hclust图,看看是否这个图的分类和GEO网站上真正的样品分类是不是一样的,是不是对照在一组,处理在一组,如果不是,那肯定是某一步除了问题。这里你会发现,样品名还是GSM***,看着很乱,也不好一眼看出分类是不是有问题,那么可以把表达矩阵的样品名改一下:

> colnames(exprSet)= paste(group_list,1:3,sep='')
> colnames(exprSet)
[1] "control1"     "control2"     "control3"     "Vemurafenib1"
[5] "Vemurafenib2" "Vemurafenib3"
> hc = hclust(dist(t(exprSet)))
> plot(hc)

这样一眼就能看出你的分类有没有问题了。

(五)PCA
> BiocManager::install("ggfortify")
> library(ggfortify)
> df=as.data.frame(t(exprSet))
> df$group=group_list
> autoplot(prcomp(df[,1:(ncol(df)-1)]),data=df,colour='group')
可以看到这个对照和处理的样品分的还是很开的

参考资料:
生信人的20个R语言习题的答案

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,723评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,003评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,512评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,825评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,874评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,841评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,812评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,582评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,033评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,309评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,450评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,158评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,789评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,409评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,609评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,440评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,357评论 2 352