生物实验中数据差异得来源
- RNA-Seq的测序数据的变异(variation)主要来源两个方面,第一个是生物学变异(Biological Variation),第二个是技术变异(technical variation)
- 个体差异性(生物重复)
指对同一个处理组中独立来源的重复样本分别进行独立分析,是整个实验的完全重复,如将具有同一基因型的多个细胞株进行独立地测定。由于遗传和环境等因素的影响会引起有机体的个体差异,因此需要采用生物重复的实验设计方法来消除该差异。目前都以3次生物学重复实验设计为主 - 技术重复带来得差异性(技术重复)
指对同一样本进行重复地检测分析,如对同一RNA-seq样本测序3次,与生物学重复相比,技术重复的测量变异程度较小,从而可以减少实验中的分析变异,将对同一份样本产生高重复性的测量结果
- 个体差异性(生物重复)
数学模拟
- 假设有x只老鼠,取前面5只小鼠得子集,基因A得表达量均值为μ,每个样本得基因表达量如图所示
新的均值则进行以下两步得计算
- 考虑生物学变异与技术变异的情况
-
使用绿色的箭头来表示技术变异,其中绿色箭头向下表示技术重复导致的reads数降低,绿色箭头向上表示reads数上升的情况,如下所示(包含新的均值计算):
-
使用绿色的箭头来表示技术变异,其中绿色箭头向下表示技术重复导致的reads数降低,绿色箭头向上表示reads数上升的情况,如下所示(包含新的均值计算):
- 只做技术重复的情况
-
只做了技术重复。例如针对第1只小鼠,我们做了5次技术重复,它的基因X的reads数如下所示(生物学变异在各次技术重复中都是一致得),新的均值推理如下图:
-
只做了技术重复。例如针对第1只小鼠,我们做了5次技术重复,它的基因X的reads数如下所示(生物学变异在各次技术重复中都是一致得),新的均值推理如下图:
比较生物学重复和技术重复
- 技术重复和生物重复同时存在得情况下,均值公式如下:
- 估计值只能无限接近于真实均值μ,但法等于均值,不过当样本量足够大时,此时的估计值就可以视为均值μ
- 是否存在生物学重复
-
存在生物学重复:
公式的第2部分是生物学变异,第3部分是技术变异。由于生物学变异和技术变异的分子部分都是有正值,负值,因此第2部分与第3部分最终会抵消,得到的结果就会非常接近于真正的均值μ -
不存在生物学重复,只有技术重复
均值计算结果如下(假设生物样本差异为1)
这个公式由3部分组成,即真实均值μ,生物学变异和-技术变异,如果我们不断地增加样本,那么这个均值就成了Average = μ +5,最终这个结果只能提供第1只小鼠的信息,而非其它所有小鼠的信息,也就是说,此时的这个μ+5只是第1只小鼠基因X的reads数均值,而不是真实的均值μ,它不能代表整个小鼠的基因X的reads数 -
同时做生物学重复和技术重复
需要样本数*技术重复得实验次数才能降低这种生物学变异的程度,均值近似于理论μ值
-
存在生物学重复:
- 重复得三类情景
①只做生物学重复;②既做生物学重复,又做技术重复;③只做技术重复
归奶如下:
实验中做生物重复即可最大的将计算均值近似理论μ值
总结
- 假如多了3个技术重复,那么就需要3倍的样本量才能抵得上‘只做生物重复’时的收敛速度。说白了,就是多做的技术重复最多不过和‘只做生物重复’的效果持平而已
- RNA_seq中技术重复得问题,实验中存在两类实验重复,分别是技术重复和生物重复,技术重复是指对同一个样本进行同样的实验操作,而生物重复是指同一个处理组中独立来源的重复样本分别进行独立分析,是整个实验的完全重复,通常为3个。在实际情形中这两类重复均可以带来数据的差异性,都可以通过大规模的实验重复而进行矫正;在实际应用中首要采取生物学重复,其次采取生物学重复和技术重复(成本极大提高),最次只采用技术重复(结果仅代表单个样本,不具有代表性)