摘抄参考链接https://zhuanlan.zhihu.com/p/95299303 单细胞RNA-seq数据分布的选择
1.正态分布,连续分布
简单分布中正态分布最能符合现实生活中很多变量的观测。另外根据中心极限定理,如果一个特定事件受多个因素的影响,而每个因素对结果的影响都很小的时候,各种因素作用的和服从正态分布。
但是细胞中RNA数量的值是离散的,而正态分布是连续分布。另外,scRNA-seq数据往往不是对称的,这与正态分布也不相吻合。因此,正态分布不适合用作scRNA-seq数据分布。人们发现变换后的结果近似服从正态分布,因此scRNA-seq数据也被认为是服从对数正态(log-normal)分布的。
不过不同细胞转录出的RNA的量往往存在数量级上的差异,因此在数据分析时常常将数据做对数变换,而人们发现变换后的结果近似服从正态分布,因此scRNA-seq数据也被认为是服从对数正态(log-normal)分布的。
2.泊松分布、离散分布
泊松分布的概率函数为:
泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。 泊松分布适合于描述单位时间内随机事件发生的次数。
3.负二项分布、离散概率分布
满足以下条件的称为负二项分布:实验包含一系列独立的实验, 每个实验都有成功、失败两种结果,成功的概率是恒定的,实验持续到r次不成功,r为正整数。