重生之我在剑桥大学学习单细胞RNA-seq分析——5. scRNA-seq数据的基本质量控制 (QC) 和探索(4)

5.4 标准化理论
5.4.1 简介
在上一章中,我们确定了重要的混杂因素和解释变量。scater允许在后续的统计模型中考虑这些变量,或者根据需要使用normaliseExprs()将它们标准化。
我们将探索如何通过简单的尺度因子(size-factor)标准化来校正文库大小,以消除一些混杂因素和解释变量的影响。
5.4.2 文库大小
ScRNA-seq数据的文库大小各异,来自每个细胞的总read量可能存在很大差异。一些定量方法(如Cufflinks、RSEM)在确定基因表达量时考虑了文库大小,因此不需要标准化。但是,如果使用其他定量方法,则必须通过将表达矩阵的每一列乘以或除以相对于其他细胞的文库大小估计出的“标准化因子”来校正。Bulk RNA测序已经开发了许多用于校正文库大小的方法,并且可以同样应用于scRNA测序(例如UQ、SF、CPM、RPKM、FPKM、TPM)。
5.4.3 标准化
5.4.3.1 CPM
标准化数据的最简单方法是将其转换为每百万计数(counts per million, CPM),即将每列中的值除以其该列总和,然后乘以1,000,000。请注意,为了校正细胞RNA总量,应将ERCC排除在总表达量的计算之外,因此我们将仅使用内源基因。R中CPM函数的示例:

> function (expr_mat, spikes = NULL) 
  {
      norm_factor <- colSums(expr_mat[-spikes, ])
      return(t(t(expr_mat)/norm_factor)) * 10^6
  }

CPM的一个潜在缺点是如果样本包含高表达且在细胞间差异表达的基因,细胞中的分子总数可能取决于这些基因在细胞中是表达还是关闭,通过总分子数进行标准化可能会隐藏这些基因的差异表达和/或错误地为其他基因创建差异表达。
RPKM、FPKM和TPM是根据基因/转录本的长度进一步调整CPM的变型。
5.4.3.2 相对对数表达(Relative Log Expression, RLE)
尺度因子由DESeq(Anders and Huber 2010)提出并推广。首先计算每个基因在所有细胞中的几何平均值,每个细胞的尺度因子是基因表达与基因几何平均值之比的中位数。该方法的缺点是,由于它使用几何平均值,因此只能使用所有细胞中具有非零表达值的基因进行计算,因此不适用于大型低深度scRNA-seq。edgeR&scater将此方法称为“相对对数表达”(RLE)。R中的SF函数示例:

> function (expr_mat, spikes = NULL) 
  {
      geomeans <- exp(rowMeans(log(expr_mat[-spikes, ])))
      SF <- function(cnts) {
          median((cnts/geomeans)[(is.finite(geomeans) & geomeans > 0)])
      }
      norm_factor <- apply(expr_mat[-spikes, ], 2, SF)
      return(t(t(expr_mat)/norm_factor))
  }

5.4.3.3 上四分位数(UQ)标准化
上四分位数(upper quartile, UQ)由(Bullard等,2010)提出,为每列除以每个文库count数的75%分位数。通常,计算出的分位数会根据细胞间的中位数进行缩放,以保持表达的绝对水平相对一致。该方法的一个缺点是,对于低深度scRNA-seq,大量未检测到的基因可能导致75%分位数为零(或接近于零)。可以通过扩展该思路并使用更高的分位数(99%分位数是scater中的默认值)或在计算75%分位数之前排除零来克服这一限制。R中的UQ函数示例:

> function (expr_mat, spikes = NULL) 
  {
      UQ <- function(x) {
          quantile(x[x > 0], 0.75)
      }
      uq <- unlist(apply(expr_mat[-spikes, ], 2, UQ))
      norm_factor <- uq/median(uq)
      return(t(t(expr_mat)/norm_factor))
  }

5.4.3.4 M值的修剪平均值 (Trimmed Mean of M-values, TMM)
另一种方法称为TMM,是(Robinson and Oshlack 2010)提出的M值的加权修剪平均值。M值是基因在细胞间的log2倍数变化。以一个细胞作为参考,计算其他细胞与该细胞的M值,然后去掉最高和最低的30%来进行修剪,并对剩余值计算加权平均值,以解释对数变换对方差的影响。每个非参考细胞都乘以计算出的因子。此方法的两个潜在问题是修剪后剩余的非零基因不足,以及大多数基因没有差异表达的假设。
5.4.3.5 scran
scran包是CPM的变型,专门用于单细胞数据(L. Lun、Bach和Marioni,2016)。简言之,该方法通过将细胞合并(pooling)计算标准化因子来解决大量零值的问题。由于每个细胞存在于不同的集合中,因此可以使用线性代数方法从集合特异因子中反卷积出细胞特异因子。
5.4.3.6 下采样(Downsampling)
最后,校正文库大小的一个简单方法是对表达矩阵进行下采样,使每个细胞具有大致相同的分子总数。该方法的好处是,通过下采样将引入零值,从而消除由于检测到的基因数量不同而导致的偏差。但缺点是该过程是不确定的,因此每次运行下采样时,得到的表达矩阵都会略有不同。因此,通常必须对多次下采样进行分析以确保结果的鲁棒性。R中的下采样函数示例:

> function (expr_mat) 
  {
      min_lib_size <- min(colSums(expr_mat))
      down_sample <- function(x) {
          prob <- min_lib_size/sum(x)
          return(unlist(lapply(x, function(y) {rbinom(1, y, prob)})))
      }
      down_sampled_mat <- apply(expr_mat, 2, down_sample)
      return(down_sampled_mat)
  }

5.4.4 性能
为了比较不同标准化方法的效果,我们使用PCA图查看并通过scaterplotRLE()函数计算每个细胞的相对对数表达。Read较多(较少)的细胞大多数基因表达量高于(低于)中位数,导致整个细胞的RLE为正(负),而标准化后细胞的RLE接近于零。R中RLE函数的示例:

> function (expr_mat, spikes = NULL) 
  {
      RLE_gene <- function(x) {
          if (median(unlist(x)) > 0) {
              log((x + 1)/(median(unlist(x)) + 1))/log(2)
          }
          else {
              rep(NA, times = length(x))
          }
      }
      if (!is.null(spikes)) {
          RLE_matrix <- t(apply(expr_mat[-spikes, ], 1, RLE_gene))
      }
      else {
          RLE_matrix <- t(apply(expr_mat, 1, RLE_gene))
      }
      cell_RLE <- apply(RLE_matrix, 2, median, na.rm = T)
      return(cell_RLE)
  }

注意:<

  • RLE、TMM和UQ方法是为Bulk RNA测序数据开发的并依赖实验背景,可能不适用于scRNA测序数据,因为它们的基本假设可能被推翻。
  • scater充当edgeRcalcNormFactors函数的功能,它实现几种文库大小标准化方法,可以轻松地将这些方法中的任何一种应用于我们的数据。
  • edgeR对一些标准化方法进行了调整,这可能会导致与原始方法的结果略有不同,例如,edgeRscater的“RLE”方法使用基于DESeq的“尺度因子”,可能会产生与DESeq/DESeq2包中的estimateSizeFactorsForMatrix方法不同的结果。此外,除非将所有细胞的lib.size设置为1,否则某些版本的edgeR将无法正确计算标准化因子。
  • 对于CPM标准化,我们使用scatercalculateCPM()函数。对于RLE、UQ和TMM,我们过去使用scaternormaliseExprs()函数(但该函数现已弃用)。对于scran,我们使用scran包来计算尺度因子(也可对SingleCellExperiment进行操作)并使用scaternormalize()来标准化数据。所有这些标准化函数都将结果保存到SCE对象的logcounts槽中。对于下采样,我们使用上方的函数。

往期内容:
重生之我在剑桥大学学习单细胞RNA-seq分析——5. scRNA-seq数据的基本质量控制 (QC) 和探索(1)
重生之我在剑桥大学学习单细胞RNA-seq分析——5. scRNA-seq数据的基本质量控制 (QC) 和探索(2)
重生之我在剑桥大学学习单细胞RNA-seq分析——5. scRNA-seq数据的基本质量控制 (QC) 和探索(3)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352

推荐阅读更多精彩内容