基因或蛋白表达谱的时间动力学聚类分析(R包Mfuzz)

在研究基因表达谱或者蛋白表达谱时,经常会涉及到对时间序列的分析。例如,不同的基因或蛋白表达水平随时间表现出怎样的动力学特征,怎样挖掘潜在的时间特征?

本篇让我们来看一个能够分析基因表达谱或者蛋白表达谱的时间动力学特征的R包,Mfuzz。它能够识别表达谱的潜在时间序列模式,并将相似模式的基因聚类,以帮助我们了解基因的动态模式和它们功能的联系。

相关文献分析思路解读

为了帮助大家理解这种方法,我们首先来看这篇文献“Protein Expression Landscape of Mouse Embryos during Pre-implantation Development”中的部分内容。

研究中,为了表征小鼠胚胎蛋白质组动力学的概况,根据小鼠着床前胚胎6个阶段(受精卵、二分胚、四分胚、八分胚、桑葚胚和囊胚)的蛋白表达谱,分析了所有表达蛋白的时间丰度特征。根据时间表达模式可归为10大类(簇),不同的簇代表了受不同调节的蛋白质,表明了不同的蛋白表达动力学,这些蛋白在各阶段的丰度变化与其功能直接相关。文章中蛋白表达谱的时间聚类分析,就是使用Mfuzz包完成的。

随后为了探讨不同动力学特征的蛋白功能,作者进行了GO和KEGG功能分析,通过功能途径阐述;以及挑选具有代表性的功能蛋白,通过它们在胚胎发育特定时期中的作用描述等。这样,就能够合理描述蛋白表达谱与功能的关系了。

蛋白表达谱的时间动态模式分析

图1,(C)模糊c均值聚类确定了蛋白质表达的10种不同的时间模式。

R包Mfuzz的时间序列聚类

当然,对不同时间动力学特征基因的功能分析属于后话了,第一步首先应思考怎样识别基因表达谱的时间动力学特征。

为此,R包Mfuzz提供了出色的方法,它的核心算法是模糊c均值聚类分析,用于识别相似的基因表达谱。此外,Mfuzz还集作图功能于一身,除了实现基因表达谱的聚类外,还能绘制时间序列,清晰地为我们呈现基因表达的动力学特征。


Mfuzz包可直接使用bioconductor安装。

安装加载Mfuzz包后,我们使用其内部数据作演示,一个来自酵母基因的表达谱。

#Bioconductor 安装 Mfuzz 包
BiocManager::install('Mfuzz')

#加载
library(Mfuzz)

#内部数据集,酵母基因表达矩阵,行为基因,列为时间样本(按时间顺序来)
data(yeast)
dat <- as.matrix(yeast@assayData$exprs)
dat[1:6,1:12]  #表达矩阵概要
示例基因表达矩阵

在示例的基因表达矩阵中,每一行是一种基因,列为样本。其中,第一列为第一个时间点的样本,第二列为第二个时间点的样本,以此类推。

随后,对基因表达矩阵进行标准化处理,并处理缺失值后,执行聚类分析,将具有相似的时间表达模式的基因聚在一类。

#构建对象
dat <- new('ExpressionSet',exprs = dat)

#处理 NA 值
dat <- filter.NA(dat, thres = 0.25)
dat <- fill.NA(dat, mode = 'mean')

#根据标准差去除样本间差异太小的基因
dat <- filter.std(dat, min.std = 0)

#标准化
dat <- standardise(dat)

#fuzzy c-means 聚类,需手动定义聚类个数,比方说设置 12 个簇
n <- 12
#评估出最佳的 m 值,防止随机数据聚类
m <- mestimate(dat)
#聚类
set.seed(123)
cl <- mfuzz(dat, c = n, m = m)

#作图,time.labels 参数设置时间轴,和原基因表达数据集中的列对应
mfuzz.plot(dat, cl = cl, mfrow = c(3, 4), time.labels = seq(0, 160, 10))
mfuzz分析结果图

如上过程基于基因表达值进行了聚类,对于每个簇中的基因,具有相似的时间表达特征。随后,即可从图中识别一些重要的聚类簇,比方说簇中基因随时间表达趋势增加或减少,以及在特定时间出现了更高或更低的表达等,以建立和观察的表型的联系。

那么,如何获得各聚类簇中,都包含哪些基因呢?继续获取各簇中包含的基因集。

#每个簇下基因数量
cl$size
#每个基因所属簇
head(cl$cluster)
#基因和 cluster 之间的 membership,用于判断基因所属簇,对应最大值的那个簇
head(cl$membership)

#整合关系输出
gene_cluster <- cbind(cl$cluster, cl$membership)
colnames(gene_cluster)[1] <- 'cluster'
write.table(gene_cluster, 'gene_cluster.txt', sep = '\t', col.names = NA, quote = FALSE)
基因名称和聚类簇的对应关系

这样,就将基因名称和其所属的聚类簇对应起来了。根据上文的折线图判断重要的时间表达模式的基因集,并在该表中进一步筛选出更具体的基因名称就可以了。

再往后,了解不同时间动力学特征的基因集的功能,可以初步执行GO或KEGG富集分析进行探索,如开篇展示的文献中思路那样,不再多说。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,864评论 6 494
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,175评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,401评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,170评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,276评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,364评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,401评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,179评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,604评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,902评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,070评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,751评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,380评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,077评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,312评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,924评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,957评论 2 351

推荐阅读更多精彩内容