GDAS010-生物学变异与技术变异


title: GDAS010-生物学变异与技术变异
date: 2019-09-10 12:0:00
type: "tags"
tags:

  • Bioconductor
  • RNA-seq
    categories:
  • Genomics Data Analysis Series

前言

在后面的章节中,我们将介绍基因组学实验中的统计推断。我们会使用前面几节中介绍的一些概念,其中包括t检验和多重比较。在这一节中,我们先介绍一个在基因组学数据分析中一个极为重要的概念:生物学变异与技术变异(biological and technical variability)以及它们之间的区别。

通常而言,我们在一个种群里所观察到的生物学单位,例如某个个体的变异称为生物学变异(biological variability)。我们将那些对同一个生物学单位进行测量时所观察到的变异称为技术性变异(technical variability,例如同一个样本测3次,这3次就是技术重复,3次数据的变异称为技术变异)。由于在基因组学研究中经常会用到新技术,因此技术重复(technical replicates)在很多时候都会用于评估实验数据。理想情况下,同一样本的检测结果应该是相同的,但在实际检测中同一样本的多次检测会出现一定的偏差,因此使用技术重复我们就能我们就能够评估新技术的技术变异。我还经常使用生物学重复(biological replicates)与技术重复(technical replicates)来分别代指生物学变异和技术变异。

我们在进行统计推断来解释有差异时,需要注意不要混淆生物学变异和技术变异,因为它们所代表的意义是不同的。例如,当我们分析技术重复时,样本仅仅只有一个,而不是代表某个总体,例如人类或小鼠。这一节中,我们通过设计一个实验来说明一下技术重复和生物重复。

合并实验数据

我们将要研究的数据集来源于基因表达微阵列。在这个实验中,我们从两个品系的小鼠中分别随机选择了12只小鼠,并提取了它们的RNA。我们将得到的24个样本使用微阵列的手段进行检测,引外,我们还构成了两个库,这两个库中的样本则是分别来源于这两个品系的12只小鼠的混合样本。

现在我们安装以下包,这个包中含有这些数据,如下所示:

library(devtools)
install_github("genomicsclass/maPooling")

使用pData函数我们就能查看实验设计。每行表示一个样本,每列表示1只小鼠。例如i,j单元格,中如果是1,则表示RNA数据来源于j只小鼠的样本i。通过行名我们可以知道品系信息(不推荐这种方法来进行分组,你可以向phenoData中添加一个变量,用于指定小鼠品系信息),数据如下所示:

library(Biobase)
library(maPooling)
data(maPooling)
head(pData(maPooling))
##          a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a14 b2 b3 b5 b6 b8 b9 b10 b11
## a10       0  0  0  0  0  0  0  0   1   0   0   0  0  0  0  0  0  0   0   0
## a10a11    0  0  0  0  0  0  0  0   1   1   0   0  0  0  0  0  0  0   0   0
## a10a11a4  0  0  1  0  0  0  0  0   1   1   0   0  0  0  0  0  0  0   0   0
## a11       0  0  0  0  0  0  0  0   0   1   0   0  0  0  0  0  0  0   0   0
## a12       0  0  0  0  0  0  0  0   0   0   1   0  0  0  0  0  0  0   0   0
## a12a14    0  0  0  0  0  0  0  0   0   0   1   1  0  0  0  0  0  0   0   0
##          b12 b13 b14 b15
## a10        0   0   0   0
## a10a11     0   0   0   0
## a10a11a4   0   0   0   0
## a11        0   0   0   0
## a12        0   0   0   0
## a12a14     0   0   0   0

现在我们创建一个函数,用于说明小鼠的样本信息,如下所示:

library(rafalib)
mypar()
flipt <- function(m) t(m[nrow(m):1,])
myimage <- function(m,...) {
  image(flipt(m),xaxt="n",yaxt="n",...)
  }

myimage(as.matrix(pData(maPooling)),col=c("white","black"),
        xlab="experiments",
        ylab="individuals",
        main="phenoData")
plot of chunk unnamed-chunk-3

需要注意的是,最终我们只对两个品系小鼠的差异基因感兴趣,也就是数据中标为0的品系和1的品系。我们可以对合并样本的技术重复进行检验或来源于12只小鼠的数据进行检验。我们可以提取出这些合并的样本,因为来自于每个品系的所有小鼠都都可以用0或1来表示,因此那些来源于某品系(例如用1表示的这个品系)代表了这些样本,因此我们提取出矩阵行之和为12的基因,这段话不太理解,原文如下:

Note that ultimately we are interested in detecting genes that are differentially expressed between the two strains of mice which we will refer to as strain 0 and 1. We can apply tests to the technical replicates of pooled samples or the data from 12 individual mice. We can identify these pooled samples because all mice from each strain were represented in these samples and thus the sum of the rows of experimental design matrix add up to 12:

如下所示:

data(maPooling)
pd=pData(maPooling)
pooled=which(rowSums(pd)==12)

我们可以从列名确定品系,如下所示:

factor(as.numeric(grepl("b",names(pooled))))
## [1] 0 0 0 0 1 1 1 1
## Levels: 0 1

如果我们要比较每个基因在不同品系之间的差异,我们就会发现有几个基因出现了比较一致的差异,如下所示:

###look at 2 pre-selected genes for illustration
i=11425;j=11878
pooled_y=exprs(maPooling[,pooled])
pooled_g=factor(as.numeric(grepl("b",names(pooled))))
mypar(1,2)
stripchart(split(pooled_y[i,],pooled_g),vertical=TRUE,method="jitter",col=c(1,2),
           main="Gene 1",xlab="Group",pch=15)
stripchart(split(pooled_y[j,],pooled_g),vertical=TRUE,method="jitter",col=c(1,2),
           main="Gene 2",xlab="Group",pch=15)
plot of chunk unnamed-chunk-6

这里要注意一下,如果我们根据这些值来进行t检验,那么我们就会得到非常显著的结果,也就是说p值极低,如下所示:

library(genefilter)
pooled_tt=rowttests(pooled_y,pooled_g)
pooled_tt$p.value[i]
## [1] 2.075617e-07
pooled_tt$p.value[j]
## [1] 3.400476e-07

但是,如果我们再次从两个品系的小鼠中各选择12个小鼠的话,这样的结论会成立吗?请注意,t检验的定义包括要比较的总体的标准差。我们这里做的计算结果是否能够反映出总体差异?(注:这里要回顾一下t检验的定义,样本与方差的差异等概念)。

需要注意的是,我们现在重复计算的过程就是在重复原来的实验流程。我们为每个合并的样本创建了4个技术重复。或许Gene 1在小鼠品系内存在着很高的变异,而Gene 2的变异则比较低,但是我们不能看到这一点,因为小鼠之间的变异被合并后的数据所掩盖了(注:这里作者只是假设了Gene 1可能存在着比较高的组内变异)。

我们还有每只小鼠的微阵列数据。对于每个品系的小鼠来说,我们有12个生物学重复。我们可以通过查询1来找到这个品系,如下所示:

individuals=which(rowSums(pd)==1)

事实证明,某些单独的小鼠本身就含有技术重复,因此现在我们将这种情况剔除掉,从而用于说明仅用生物学重复的分析结果,如下所示:

##remove replicates
individuals=individuals[-grep("tr",names(individuals))]
y=exprs(maPooling)[,individuals]
g=factor(as.numeric(grepl("b",names(individuals))))

我们可以计算每个基因的在某个品系中的方差,并与通过技术重复获得的标准差进行比较,如下所示:

technicalsd <- rowSds(pooled_y[,pooled_g==0])
biologicalsd <- rowSds(y[,g==0])
LIM=range(c(technicalsd,biologicalsd))
mypar(1,1)
boxplot(technicalsd,biologicalsd,names=c("technical","biological"),ylab="standard deviation")
plot of chunk unnamed-chunk-10

从上图上我们可以看到,生物学方差(variance)远大于技术方差。并且对于方差的变异而言,生物学方差更大。这只是我们前面提到的2个基因的情况,现在我们展示每只小鼠上测得的这2个基因的表达值,如下所示:

mypar(1,2)
stripchart(split(y[i,],g),vertical=TRUE,method="jitter",col=c(1,2),xlab="Gene 1",pch=15)
points(c(1,2),tapply(y[i,],g,mean),pch=4,cex=1.5)
stripchart(split(y[j,],g),vertical=TRUE,method="jitter",col=c(1,2),xlab="Gene 2",pch=15)
points(c(1,2),tapply(y[j,],g,mean),pch=4,cex=1.5)
plot of chunk unnamed-chunk-11

现在p值就发生了一点变化,如下所示:

library(genefilter)
tt=rowttests(y,g)
tt$p.value[i]
## [1] 0.0898726
tt$p.value[j]
## [1] 1.979172e-07

当我们在不同品系的小鼠之间比较这2个基因的差异时,我们对哪个基因的差异更有信心呢(Gene 1还是Gene 2)?如果另一位研究人员另外一批随机样本来做实验,你认识他会发现哪个基因有差异(Gene 1还是Gene 2)?如果我们希望我们的结论是关于小鼠品系的通用结论(通用结论这里我的理解就是,无论放哪个实验室做,都能做出这个结果,得到这个结论),而不仅仅是我们这次实验的结论(也就是说,有可能就是只有自己实验室能做出这个结果,那么这个结果就不太可信,有可能是假阳性),那么检测生物学的变异则非常重要。

在这一节中,我们使用了两种分析方法。第一种分析方法是将这两个品系的生物学重复做为总体总体来进行分析析(也就是说把某个品系的12只小鼠数据汇总起来分析)。第二种则是将合并后的数据来作为总体进行分析(我的理解就是把12只小鼠的RNA混合在一起,作为一个样本,然后使用4个技术重复来进行分析,这种分析方法其实检测的就是技术变异)。在科学研究中,我们通常关注的是总体(也就是第一种分析方法)。作为一个非常实际的例子,这里需要注意的是,如果另外一个实验室重复该实验,他们会有另外一组12个小鼠的样本,因此关于我们实验中对总体的推断也会在另外的实验室中得到重复。

An analysis with biological replicates has as a population these two strains of mice. An analysis with technical replicates has as a population the twelve mice we selected and the variability is related to
the measurement technology. In science we typically are concerned with populations. As a very practical example, note that if another lab performs this experiment they will have another set of twelve mice and thus inferences about populations are more likely to be reproducible.

参考资料

  1. Biological versus technical variability
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,039评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,223评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,916评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,009评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,030评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,011评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,934评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,754评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,202评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,433评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,590评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,321评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,917评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,568评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,738评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,583评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,482评论 2 352

推荐阅读更多精彩内容