基因表达谱的SOM聚类分析识别功能基因集

前不久小编接触了这样一个分析,给定基因表达矩阵后,通过自组织映射(Self-organizing map,SOM)技术识别其中的高表达基因集,以便和功能建立关联。

下文将该方法简称为SOM聚类分析,因为它就是一种基于神经网络的聚类算法。那么,SOM聚类在表达谱数据中是如何应用的呢?本篇我们就来看一下。

相关文献分析思路解读

为了帮助大家理解这种方法,首先来看文献“NLRP3 inflammasome activation drives tau pathology”中的部分内容。

作者构建小鼠模型,模拟额颞叶痴呆(FTD)病理学效应。Tau22小鼠转基因了人类tauFTD变体,并在一段时间内发展为tau病理学。获取野生型(WT)和Tau22小鼠的脑组织并提取RNA,包括2、8、11月龄的小鼠,进行RNA芯片分析基因表达,获得脑组织在tau病理学过程中显著被激活的基因。

试验流程图

作者通过SOM聚类,鉴定了参与tau蛋白的致病性基因集。分别根据野生型或Tau22小鼠在3、8、11月时间点的相似表达水平将基因分组,并根据表达水平升高将其定义为每种条件的特征基因。共识别了6个主要的表达模块,同一模块内的基因集具有相似的表达模式,它们在该时间点均处于相对高表达的状态,暗示它们在这些时间点中发挥主要活性。

基因表达谱的SOM聚类分析

为了明确这些高度活跃的基因发挥的功能,随后作者通过基因集富集分析(GSEA),比较Tau22小鼠相较于WT小鼠中哪些途径被激活。在3个月大的Tau22小鼠中,特征基因显示与免疫反应的联系,表明在疾病开始时特征基因就参与了免疫过程;而在疾病发展后期,小鼠中上调的基因参与了诸如“应激反应”等功能中,且高达73%的特征基因与干扰素相关。

R语言的SOM聚类分析

不难理解,上述文献中,作者通过SOM聚类识别高度表达的基因集,用作功能分析。

本篇模仿该文献中的思路,展示如何在R中执行基因表达谱的SOM聚类。

使用kohonen包执行SOM聚类,首先安装加载该包。

#安装及加载kohonen包
#install.packages('kohonen')
library(kohonen)

#数据集yeast是800种酵母基因的微阵列细胞周期数据
data(yeast)

dat <- yeast$elu
head(dat)  #展示其中一种类型的芯片表达谱
示例基因表达矩阵

接下来基于示例的基因表达谱,对各基因执行SOM聚类。

##1、标准化表达值数据
dat_scale <- as.matrix(scale(dat))
names(dat_scale) <- names(dat)
head(dat_scale)

##2、训练SOM模型
set.seed(123)

#定义网络的大小和形状,以10*10为例
som_grid <- somgrid(xdim = 10, ydim = 10, topo = 'rectangular')  

#多层SOM
som_model <- supersom(dat_scale, grid = som_grid, keep.data = TRUE)

##3、作图,颜色代表了模块内基因平局表达值
coolBlueHotRed <- function(n, alpha = 0.7) rainbow(n, end=4/6, alpha=alpha)[n:1]

color_by = apply(som_model$data[[1]], 1, mean)
unit_colors <- aggregate(color_by, by = list(som_model$unit.classif), FUN = mean, simplify = TRUE)
unit_dat <- data.frame(value = rep(0, 100))
unit_dat[unit_colors$Group.1,'value'] <- unit_colors$x

plot(som_model, type = 'property', property = unit_dat[[1]], palette.name = coolBlueHotRed, 
    shape = 'straight', keepMargins = TRUE, border = NA) 
基于表达值的聚类图谱

如上过程基于基因表达值进行了聚类,获得了聚类模块,并按模块内基因的平均表达值赋值了模块颜色。随后,即可从图中判断选择高表达的模块,将其中的基因挑选出来,作为发挥生物学过程的“活跃”基因集。

那么,如何获得各模块中,都包含哪些基因呢?参考以下操作。

##获取每个SOM中心点相关的基因
som_model_class <- data.frame(name=rownames(som_model$data[[1]]), code_class=som_model$unit.classif)
head(som_model_class)

write.table(som_model_class, 'gene_SOM.txt', row.names = FALSE, sep = '\t', quote = FALSE)
基因和所属聚类模块的对应关系

这样,就将基因名称和其所属模块对应起来了。

最后,识别高表达的模块,并从中进一步筛选基因集就可以了。这些基因集既然存在高表达,那么必然会和功能密不可分。了解它们的功能,可以初步执行GO或KEGG富集分析进行探索,如开篇展示的文献中思路那样,不再多说了。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,864评论 6 494
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,175评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,401评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,170评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,276评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,364评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,401评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,179评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,604评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,902评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,070评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,751评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,380评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,077评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,312评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,924评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,957评论 2 351

推荐阅读更多精彩内容