随机变量
随机试验的样本空间为Ω,如果对于每一个样本点ω∈Ω,有一个实数X(ω)与之对应,这样得到一个定义在Ω上的单值函数X=X(ω),则称X(ω)为随机变量,简记为X。也就是说,随机变量X是一个从Ω到实数域R的函数,它的定义域为Ω,它的值域X(Ω)为R或R的一个子集。通常用X,Y,Z表示随机变量,用x,y,z表示随机变量的取值。引入随机变量是为了将随机试验数量化,便于对其规律性进行研究。
例如,随机将一枚均匀的硬币投掷两次,则样本空间为Ω={++, +-, -+, --},如果关心得到正面的次数,则可以对结果ω=++, +-, -+, --定义随机变量X(ω)=2,1,1,0。
如果随机变量的值都可以逐个列举出来,则为离散型随机变量。如果随机变量的取值无法逐个列举则为连续型随机变量。只要是能够用我们日常使用的量词度量的取值,比如次数、个数等都是离散型随机变量。如果无法用这些量词度量,取值为某个区间上的值,可以取到小数点2位、3位、甚至无限多位的时候,那么这个变量就是连续型随机变量。
概率函数和概率分布
事件的概率表示了一次试验中某一个结果发生的可能性大小。概率函数,就是用函数的形式来表达概率。概率分布,就是概率的分布,用于表述随机变量取值的概率规律。连续型随机变量的概率函数又叫做概率密度函数;离散型随机变量的概率函数又叫做概率质量函数。
概率分布(probability distribution)描述了随机变量(random variable)在给定范围内可以接受的所有可能的值和似然(all the possible values and likelihoods)。概率分布的形状的影响因素包括平均值(mean or average)、标准差(standard deviation)、偏度(skewness)、峰度(kurtosis)。某些现象数据生成的过程将决定其概率分布,这一过程称为概率密度函数,概率分布描述给定数据生成过程可能值的预期结果。
离散型概率分布包括:伯努利分布、二项分布、几何分布、泊松分布等。
连续型概率分布包括:正态分布、指数分布等。
离散型随机变量:设xi (i=1,2,3,4,5,6)为离散型随机变量X的所有可能取值,事件{X=xi}的概率P{X=xi} = pi (i=1,2,3,4,5,6)。
公式pi = P(X=xi) (i=1,2,3,4,5,6)就是概率函数,自变量(X)是随机变量的取值,因变量(pi)是取值的概率,公式表示了每个取值的概率。从公式上来看,概率函数一次只能表示一个取值的概率。比如P(X=1)=1/6,这代表用概率函数的形式来表示当随机变量取值为1的概率为1/6,一次只能代表一个随机变量的取值。
把所有可能出现的取值和取值的概率全部都列出来,称为离散型随机变量的值分布和值的概率分布列表,即X的分布列(率),常写成表格形式:
概率分布律(law of probability distribution)简称概率律或概率分布。
分布列的性质:非负性:pi≥0;规范性:Σpi=1。
分布函数
分布函数/概率分布函数(probability distribution function),又叫累计概率函数/累积分布函数(cumulative distribution functions,CDFs),是概率函数取值的累加结果。
设X是一个随机变量,对任意实数x,定义F(x)=P (X≤x)为随机变量X的分布函数,且称X服从F(x),记为X~F(x)。
F(x)是一个普通函数,其定义域为(-∞,+∞),F(x)的值为事件{X≤x}的概率。
分布函数的性质:单调不减性;规范性(总是从零开始,以100%结束);右连续性。
连续型随机变量的分布函数F(x)是连续函数。连续型随机变量X 在某一点a的概率P{X=a} = 0,概率为0的事件未必是不可能事件。
对于离散型概率分布,我们关心的是取得一个特定数值的概率;对于连续型概率分布,不可能列举每一个精确数值,更关心一个特定范围的概率。
概率密度函数
连续型随机变量X,分布函数
f(x)称X的概率密度函数或分布密度函数。概率密度函数是分布函数的导函数,概率密度函数的曲线下面积总和为1。
概率密度函数f(x)的性质:非负性:f(x)≥0;规范性。
连续型随机变量的概率分布(continuous)
(1)正态分布(normal distribution)
最常见的概率分布是正态分布,或钟形曲线(bell curve)。
X~N(μ, σ^2)
期望(expected value) E = μ
方差(variance) D = σ^2
标准差(standard deviation)σ
特点:曲线关于x=μ对称;当x=μ时p(x)取得最大值;当x→±∞时,p(x)→0;曲线在x=μ±σ处有拐点;曲线以x轴为渐近线;σ决定曲线的形状,σ越大,曲线越矮平。
(2)标准正态分布(standard normal distribution)
标准正态分布定义为平均值等于0,标准偏差等于1的正态分布。横轴表示(x-μ)/ σ。
(3)指数分布(exponential distribution)
研究的是事件的时间间隔的概率。例如:收到两条微信之间的时间间隔,某视频被播放的时间间隔。
指数分布的特性:无记忆性。比如灯泡的使用寿命服从指数分布,无论它已经使用多长一段时间,只要还没有损坏,它能再使用一段时间t 的概率与一件新产品使用时间t 的概率一样。 表示为X~E(λ) 。
(4)均匀分布(uniform probability distribution)
X~U(a, b)
f(x) = 1/(b-a),a≤x≤b
均值 E = (a+b)/2
方差 D = (b-a)/√12
离散型随机变量的概率分布(discrete)
(1)两点分布
随机变量X只有两个可能的取值a和b,其概率分布为: P{X=a} = p, P{X=b} = 1-p (0<p<1)
(2)0-1分布/伯努利分布(Bernoulli distribution)
两点分布中a和b取值分别为1和0的特殊情况。伯努利试验是只有两种可能结果(成功p或失败1-p)的单次随机试验。其概率分布为:
P{X=1} = p, P{X=0} = 1-p (0<p<1)
期望 E = p
方差 D = p(1−p)
(3)二项分布(Binomial distribution)
是n重伯努利试验成功次数的离散概率分布。每一次试验中都有两种互斥的结果,成功的概率为p,失败的概率为(1-p)。每次试验之间独立,互不影响。在n次独立重复试验中,成功出现x次的概率:
称X服从参数为n, p的二项分布,记为X~B(n, p)。
均值 μ = np
方差 σ^2 = np(1-p)
(4)泊松分布(Poisson distribution)
泊松分布适合于描述单位时间(或空间)内随机事件发生的次数(事件发生的次数只能是离散的整数)。如汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数,一块产品上的缺陷数,显微镜下单位分区内的细菌分布数等等。
二项分布中,如果p非常小,并且n非常大,则成为泊松分布。
λ是事件发生的速率,t是时间间隔的长,X是该时间间隔内的事件数。μ表示长度为t的间隔中的平均事件数,那么µ = λt。
X~P(λ)
均值 μ = λ
方差 σ^2 = λ
μ是泊松分布所依赖的唯一参数,μ值越小分布越偏倚,μ=20时分布接近正态分布,μ=50时可以认为呈正态分布。
(5)负二项分布(negative binomial distribution)
每一次试验中都有两种互斥的结果,成功的概率为p,失败的概率为(1-p)。每次试验之间独立,互不影响。重复试验,直到预定的失败数发生r次,那么成功的次数X会服从负二项分布。
X~NB(r, P)
该公式描述的是,在合格率为p的一堆产品中,进行连续有放回的抽样,当抽到r个次品时,停止抽样,此时抽到的正品正好为k个的概率。
RNA-seq数据的分布
进行两组数据间的差异分析,通常可以用方差分析判定两组分布数据间是否存在显著差异,当组间方差大于组内方差,并且统计学显著时,则认为组间处理是可以引起差异的。而在RNA-seq中,问题是实验重复数量很少,counts是非连续的(芯片信号是连续的),这些数据并不符合正态分布。我们面临两个核心问题:基因表达数据适合用什么统计学分布进行差异显著性检验?如何利用少量生物学重复数据估算基因表达的标准差?
从统计学的角度出发,进行差异分析肯定会需要假设检验,通常对于分布已知的数据,运用参数检验结果的假阳性率会更低。转录组数据中,raw count值符合什么样的分布呢?count值本质是reads的数目,是一个非零整数,而且是离散的,其分布肯定也是离散型分布。对于转录组数据,学术界常用的分布包括泊松分布(poisson)和负二项分布(negative binomial)两种。
dispersion指的是离散程度,研究一个数据分布的离散程度,我们常用方差这个指标。对于泊松分布而言,其均值和方差是相等的,但是我们的数据确不符合这样的规律。
横坐标为均值,纵坐标为方差,真实数据的分布是偏离了泊松分布的,方差明显比均值要大。称为over dispersion(过度离散)。因此选择泊松分布分布作为总体的分布是不合理。
在RNA-seq中,技术误差(sampling variability)是满足泊松分布的,因为期望和方差差不多。但是生物学重复之间的误差(biological variability)不能用泊松分布来描述,因为它的方差可能很大,所以要用负二项分布,加了一个额外的误差项。
负二项分布均值是方差的二次函数,方差随着均值的增加而进行二次函数形式的递增。
有三种R包(edgeR,DESeq,baySeq)实现的方法是基于负二项模型的。
测序计数数据的特点包括非正态性、方差对均值的依赖等。将reads计数Kij建模为负二项分布,只是因为目前人们认为reads的分布情况更符合负二项分布。这个负二项分布具有两个参数,均值(mean)μij和离散(dispersion)αi。组内变异由离散参数αi建模,该参数通过Var Kij = μij + αi μij^2描述计数的方差。离散参数αi的准确估计对于差异表达的统计推理至关重要,但是在生物学重复很少时,很难准确计算每个基因表达的离散程度。在DESeq2中,假设平均表达强度相似的基因具有相似的分散性,从而跨基因共享信息,对离散度进行收缩(shrink)。