上期我们介绍了TissueEnrich
包的安装方法以及对人鼠的基因列表进行组织特异性基因富集分析,本期我们来学习 TissueEnrich
包如何鉴定组织特异性基因,本期主要用到 TissueEnrich
的 teGeneRetrieval
功能函数,该函数可探索任意物种的组织特异性表达基因。
teGeneRetrieval函数:组织特异性表达基因识别
在基因组学研究中,组织特异性基因的识别对理解基因在不同组织中的功能及其在疾病中的作用至关重要。TissueEnrich
包中的 teGeneRetrieval
函数可以帮助我们定义组织特异性基因,并根据基因在不同组织中的表达情况进行分类。该函数采用 SummarizedExperiment
对象作为输入,其中包含了基因在不同组织中的表达信息,并将基因划分为不同的组别,最终返回包含这些信息的新的 SummarizedExperiment
对象。
基因组的分类
基于基因在各个组织中的表达情况,teGeneRetrieval
函数将基因分为以下六类:
- 未表达(Not Expressed):在所有组织中的表达水平都低于1(TPM或FPKM)。
- 组织富集(Tissue Enriched):在某一特定组织中的表达水平大于或等于1(TPM或FPKM),并且在该组织中的表达水平比其他所有组织高出至少5倍。
- 组富集(Group Enriched):在2到7个组织组成的某个组中,基因的表达水平大于或等于1(TPM或FPKM),且比其他所有组织的表达高出至少5倍,但这些基因不属于“组织富集”类别。
- 组织增强(Tissue Enhanced):在某一特定组织中的表达水平大于或等于1(TPM或FPKM),并且比所有其他组织的平均表达水平高出至少5倍,但这些基因不属于“组织富集”或“组富集”类别。
- 在所有组织中表达(Expressed in all):在所有组织中都有表达,但不属于以上四类。
- 混合(Mixed):无法归入以上五类的基因。
组织富集、组富集和组织增强这三类基因都可被认为是组织特异性基因。
示例:组织特异性基因的识别
以下实例展示如何使用 teGeneRetrieval
函数进行组织特异性基因识别的示例。我们使用的是来自小鼠ENCODE数据的基因表达数据,该数据包含了36个基因在17个组织中的表达信息。注意:这里使用的是各组织的平均表达量。
首先,我们需要加载 TissueEnrich
和 SummarizedExperiment
包:
library(TissueEnrich)
library(SummarizedExperiment)
接着,加载基因表达数据并将其转换为 SummarizedExperiment
对象:
#导入数据
data <- system.file("extdata", "test.expressiondata.txt", package = "TissueEnrich")
expressionData <- read.table(data, header = TRUE, row.names = 1, sep = '\t')
#创建SummarizedExperiment对象
se <- SummarizedExperiment(assays = SimpleList(as.matrix(expressionData)), rowData = row.names(expressionData), colData = colnames(expressionData))
使用 teGeneRetrieval
函数进行基因分类:
output <- teGeneRetrieval(se)
最后,我们查看结果:
head(assay(output))
输出结果如下:
Gene Tissue Group
[1,] "ENSMUSG00000003200" "All" "Expressed-In-All"
[2,] "ENSMUSG00000003206" "Bone.Marrow" "Tissue-Enhanced"
[3,] "ENSMUSG00000003208" "All" "Mixed"
[4,] "ENSMUSG00000004530" "All" "Expressed-In-All"
[5,] "ENSMUSG00000004535" "All" "Expressed-In-All"
[6,] "ENSMUSG00000004540" "E14.5.Placenta" "Tissue-Enriched"
从结果中可以看到我们已经成功获得了组织特异性基因,每个基因的分类信息包括基因ID、组织名和所属的组织特异性基因组。比如,基因 ENSMUSG00000003206 被分类为 “Bone Marrow” 组织增强基因(Tissue-Enhanced),而基因 ENSMUSG00000004540 被分类为 “E14.5 Placenta” 组织富集基因(Tissue-Enriched)。
总结
通过 teGeneRetrieval
函数,可以轻松地从多个组织的基因表达数据中识别出组织特异性基因。这一方法不仅帮助我们理解基因在不同组织中的功能,还为寻找与某些疾病相关的生物标志物提供了有力的工具。通过调整默认阈值,用户还可以根据研究需要,进一步优化组织特异性的基因识别。