【转录组06】数据标准化

image.png

image.png
image.png

RPKM/FPKM

推荐使用TPM

箱式图

image.png

airway数据集简介
image.png


# 魔幻操作,一键清空
rm(list = ls()) 
options(stringsAsFactors = F)  #设置全局变量

# 加载airway【数据包】数据集并转换为表达矩阵
library(airway,quietly = T)  #禁止显示动态信息
data(airway)
class(airway)

rawcount <- assay(airway)  ##???assay函数的用法
colnames(rawcount)
# 查看表达谱
rawcount[1:4,1:4]
前四行前四列
# 去除前的基因表达矩阵情况
dim(rawcount)

# 获取分组信息
group_list <- colData(airway)$dex  ##??colData
group_list

# 过滤在至少在75%的样本中都有表达的基因
keep <- rowSums(rawcount>0) >= floor(0.75*ncol(rawcount))  #rowSums(rawcount>0) 是对矩阵取行的和
table(keep)

filter_count <- rawcount[keep,]
filter_count[1:4,1:4]
dim(filter_count)

过滤后和过滤前的前四行前四列可以看到ENSG00000000005已经不存在了【过滤的意义就是去掉空的】


image.png
# 加载edgeR包计算counts per millio(cpm) 表达矩阵,并对结果取log2值
library(edgeR)
express_cpm <- log2(cpm(filter_count)+1)
express_cpm[1:6,1:6]

# 保存表达矩阵和分组结果
save(filter_count,express_cpm,group_list,file = "../Analysis/data/Step01-airwayData.Rdata")

image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容