两组数据间的数量误差较大，通常无法直接比较，需要通过对数据进行均一化处理再进行比较。

Part1. 数据及包的载入

rm(list = ls())

library(dplyr)
library(ggplot2)
library(ggrepel)
library(preprocessCore)
library(limma)

#读入两个差异分析表（以分别是转录组和蛋白组的表达谱数据为例）；
#设置工作目录；
setwd("E:/R/demo/数据汇总")
dir()

#读入数据；
protein <- read.delim("Proteome表达谱汇总.txt",
                 check.names = FALSE)

RNA <- read.delim("Transcriptome表达谱汇总.txt",
                      check.names = FALSE)

Part2. merge函数进行数据的整合

# 2.1 将两个数据集中所有行提取汇总成combine文件（能匹配的汇总成一列，不能汇总为NA值）（取并集）
combine_data1 <- merge(RNA, 
                       protein, 
                       by.x="GeneID",
                       by.y="GeneID",
                       suffixes = c("_RNA", "_Protein"),
                       all.x=T,
                       all.y=T)

# by.x和by.y是数据整合的判断条件，基于“GeneID”列数据进行整合
#all.x于all.y的判断值决定是否保留未匹配的数据行（即取并集）
#suffixes数据对RNA和protein数据


# 2.2 将两个数据集中所有行提取汇总成combine文件（基于RNA数据进行汇总）
combine_data2 <- merge(RNA, 
                       protein, 
                       by.x="GeneID",
                       by.y="GeneID",
                       suffixes = c("_RNA", "_Protein"),
                       all.x=T,
                       all.y=F)

# 2.3 将两个数据集中所有行提取汇总成combine文件（基于Protein数据进行汇总）
combine_data3 <- merge(RNA, 
                       protein, 
                       by.x="GeneID",
                       by.y="GeneID",
                       suffixes = c("_RNA", "_Protein"),
                       all.x=F,
                       all.y=T)


#2.4 将两个数据集中所有匹配的行提取汇总成combine文件（交集）
combine_data4= merge(RNA,protein,
                    by.x="GeneID",
                    by.y="GeneID",
                    suffixes = c("_RNA","_Protein") ,
                    all.x=FALSE,
                    all.y=FALSE)

Part3. 整合数据的导出

write.csv(combine_data1,"表达谱数据汇总_取并集.csv")
write.csv(combine_data2,"基于RNA数据进行表达谱汇总.csv")
write.csv(combine_data3,"基于Protein数据进行表达谱汇总.csv")
write.csv(combine_data4,"表达谱数据汇总_取交集.csv")

常用的数据文件均一化整合

常用的数据文件均一化整合

Part1. 数据及包的载入

Part2. merge函数进行数据的整合

Part3. 整合数据的导出

推荐阅读更多精彩内容