重生之我在剑桥大学学习单细胞RNA-seq分析——6. 生物学分析(3)

6.3 差异表达(DE)分析
6.3.1 Bulk RNA-seq
处理Bulk RNA测序数据时最常见的分析之一是识别差异表达基因。通过比较两种条件下发生变化的基因,例如突变型和野生型或受刺激和不受刺激,可以描述变化背后的分子机制。
如DESeq2和edgeR等方法是为Bulk RNA测序而开发的。此外,还有大量使用RT-qPCR进行了验证的RNA-seq数据集。这些数据可用于对DE查找算法进行基准测试,现有证据表明这些算法的性能相当良好。
6.3.2 单细胞RNA-seq
与Bulk RNA测序相比,在scRNA测序中通常没有明确的实验条件。相反,如上一章(6.2)所示,可以使用无监督聚类方法来识别细胞群。一旦确定了分群,就可以通过比较组间方差的差异来找到差异表达的基因(如SC3中的Kruskal-Wallis检验),或者通过成对的方式比较组之间的基因表达。在下一章中,我们将主要考虑为成对比较而开发的工具。
6.3.3 分布差异
与Bulk RNA测序不同,在单细胞实验中,要比较的每一组通常具有大量样本(即细胞)。因此,我们可以利用每个组中表达量的整体分布来识别组之间的差异,而不是仅仅比较平均表达量,这是Bulk RNA-seq的标准。
比较分布主要有两种方法。首先,我们可以使用现有的统计模型/分布,并对每组的表达使用同一模型拟合,然后进行参数检验,或者检验允许某个特定参数根据组变化的情况下,模型是否拟合得更好。例如,在5.6章中,使用edgeR来检验允许不同批次中的平均表达不同是否显著改善了数据负二项模型的拟合度。
或者,我们可以使用非参数检验,它不假设表达量遵循任何特定分布,例如Kolmogorov-Smirnov检验。非参数检验通常将观察到的表达量转换为秩,并检验一个组的秩分布是否与另一个组的秩分布有显著差异。然而,一些非参数方法在存在大量并列值的情况下会失败,例如单细胞RNA-seq数据中的零值的情况。此外,如果参数检验的条件成立,那么它通常比非参数检验更有效。
6.3.4 单细胞RNA测序数据模型
ScRNA-seq数据最常见的模型是负二项分布模型:

> set.seed(1)
> hist(
      rnbinom(
          1000, 
          mu = 10, 
          size = 100), 
      col = "grey50", 
      xlab = "Read Counts", 
      main = "Negative Binomial"
  )
1000个细胞中单个基因的read数呈负二项分布

均值:μ=mu
方差:σ2=mu+mu2/size
它的参数包括平均表达量(mu)和离散度(size),离散度与方差成反比。负二项分布模型非常适合Bulk RNA-seq数据,并且用于为此类数据设计的大多数统计方法。此外,它能够很好地拟合从UMI标记的数据中获得的count分布(Grun等,2014;Islam等,2011)。
然而,由于零值较高,原始负二项分布模型并不适合全长转录本数据。对于这种类型的数据,已经提出了各种零膨胀负二项分布模型(例如MAST、SCDE)。

> d <- 0.5
> counts <- rnbinom(
      1000, 
      mu = 10, 
      size = 100
  )
> counts[runif(1000) < d] <- 0
> hist(
      counts, 
      col = "grey50", 
      xlab = "Read Counts", 
      main = "Zero-inflated NB"
  )
零膨胀负二项分布

均值:μ=mu·(1-d)
方差:σ2=μ·(1-d)·(1+d·μ+μ/size)
这些模型为负二项分布模型引入了一个新参数d,表示零值。基因表达的零值与基因的平均表达密切相关。不同的零膨胀负二项分布模型使用不同的mu和d之间的关系,有些模型可能将μ和d独立地拟合到每个基因的表达。
最后,有几种方法使用基于转录爆发机械模型的Poisson-Beta分布。该模型得到了强有力的实验支持(Kim和Marioni,2013),它与scRNA-seq数据非常契合,但不如负二项分布模型那么容易使用,而且可供构建的方法比负二项分布模型少得多。

> a <- 0.1
> b <- 0.1
> g <- 100
> lambdas <- rbeta(1000, a, b)
> counts <- sapply(g*lambdas, function(l) {rpois(1, lambda = l)})
> hist(
      counts, 
      col = "grey50", 
      xlab = "Read Counts", 
      main = "Poisson-Beta"
  )

均值:μ=g·a/(a+b)
方差:σ2=g2·a·b/((a+b+1)·(a+b)2)
该模型使用三个参数:a为转录激活率;b为转录抑制率;g为转录活跃时转录本产生的速率。差异表达方法可以检测每个参数在不同组之间的差异,或者只测试一个参数(通常是g)。
所有这些模型都可以进一步扩展,以明确考虑基因表达差异的其他来源,例如根据特定的DE算法的批次效应或文库深度。

往期内容:
重生之我在剑桥大学学习单细胞RNA-seq分析——6. 生物学分析(1)
重生之我在剑桥大学学习单细胞RNA-seq分析——6. 生物学分析(2)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,539评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,594评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,871评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,963评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,984评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,763评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,468评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,357评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,850评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,002评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,144评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,823评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,483评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,026评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,150评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,415评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,092评论 2 355

推荐阅读更多精彩内容