两组数据间的数量误差较大,通常无法直接比较,需要通过对数据进行均一化处理再进行比较。
Part1. 数据及包的载入
rm(list = ls())
library(dplyr)
library(ggplot2)
library(ggrepel)
library(preprocessCore)
library(limma)
#读入两个差异分析表(以分别是转录组和蛋白组的表达谱数据为例);
#设置工作目录;
setwd("E:/R/demo/数据汇总")
dir()
#读入数据;
protein <- read.delim("Proteome表达谱汇总.txt",
check.names = FALSE)
RNA <- read.delim("Transcriptome表达谱汇总.txt",
check.names = FALSE)
Part2. merge函数进行数据的整合
# 2.1 将两个数据集中所有行提取汇总成combine文件(能匹配的汇总成一列,不能汇总为NA值)(取并集)
combine_data1 <- merge(RNA,
protein,
by.x="GeneID",
by.y="GeneID",
suffixes = c("_RNA", "_Protein"),
all.x=T,
all.y=T)
# by.x和by.y是数据整合的判断条件,基于“GeneID”列数据进行整合
#all.x于all.y的判断值决定是否保留未匹配的数据行(即取并集)
#suffixes数据对RNA和protein数据
# 2.2 将两个数据集中所有行提取汇总成combine文件(基于RNA数据进行汇总)
combine_data2 <- merge(RNA,
protein,
by.x="GeneID",
by.y="GeneID",
suffixes = c("_RNA", "_Protein"),
all.x=T,
all.y=F)
# 2.3 将两个数据集中所有行提取汇总成combine文件(基于Protein数据进行汇总)
combine_data3 <- merge(RNA,
protein,
by.x="GeneID",
by.y="GeneID",
suffixes = c("_RNA", "_Protein"),
all.x=F,
all.y=T)
#2.4 将两个数据集中所有匹配的行提取汇总成combine文件(交集)
combine_data4= merge(RNA,protein,
by.x="GeneID",
by.y="GeneID",
suffixes = c("_RNA","_Protein") ,
all.x=FALSE,
all.y=FALSE)
Part3. 整合数据的导出
write.csv(combine_data1,"表达谱数据汇总_取并集.csv")
write.csv(combine_data2,"基于RNA数据进行表达谱汇总.csv")
write.csv(combine_data3,"基于Protein数据进行表达谱汇总.csv")
write.csv(combine_data4,"表达谱数据汇总_取交集.csv")