image.png
image.png
image.png
RPKM/FPKM
推荐使用TPM
箱式图
image.png
airway数据集简介
image.png
# 魔幻操作,一键清空
rm(list = ls())
options(stringsAsFactors = F) #设置全局变量
# 加载airway【数据包】数据集并转换为表达矩阵
library(airway,quietly = T) #禁止显示动态信息
data(airway)
class(airway)
rawcount <- assay(airway) ##???assay函数的用法
colnames(rawcount)
# 查看表达谱
rawcount[1:4,1:4]
前四行前四列
# 去除前的基因表达矩阵情况
dim(rawcount)
# 获取分组信息
group_list <- colData(airway)$dex ##??colData
group_list
# 过滤在至少在75%的样本中都有表达的基因
keep <- rowSums(rawcount>0) >= floor(0.75*ncol(rawcount)) #rowSums(rawcount>0) 是对矩阵取行的和
table(keep)
filter_count <- rawcount[keep,]
filter_count[1:4,1:4]
dim(filter_count)
过滤后和过滤前的前四行前四列可以看到ENSG00000000005已经不存在了【过滤的意义就是去掉空的】
image.png
# 加载edgeR包计算counts per millio(cpm) 表达矩阵,并对结果取log2值
library(edgeR)
express_cpm <- log2(cpm(filter_count)+1)
express_cpm[1:6,1:6]
# 保存表达矩阵和分组结果
save(filter_count,express_cpm,group_list,file = "../Analysis/data/Step01-airwayData.Rdata")
image.png