概率分布 (Probability Distribution),用于描述随机变量取某个特定的值或取某一区间范围内值的概率。
可以这样理解:概率1以一定的规律,分布在各个可能值或可能范围上。
概率分布可以分为离散型概率分布和连续型概率分布。对于离散型随机变量,概率分布描述变量取某一可能值的概率;对于连续型随机变量,概率分布描述变量取某一范围内值的概率。
1. 相关概念
1.1. 概率计算
概率计算是指计算随机变量在某个区间或某个具体取值上的概率。不同类型的随机变量使用的概率计算方法不同:
- 对于离散型随机变量,可以直接求取其概率质量函数 (PMF)。
- 对于连续型随机变量,则需要求取其概率密度函数 (PDF),然后通过积分计算概率。
概率质量函数 (Probability Mass Function) 是离散型随机变量的概率分布函数。它描述了离散型随机变量取每一个特定值的概率。
概率密度函数 (Probability Density Function) 是连续型随机变量的概率分布函数。它描述了随机变量在某一特定值附近的概率密度,而非直接描述随机变量取某一特定值的概率。
1.2. 累积分布函数 (Cumulative Distribution Function)
累积分布函数,也称分布函数,是用于描述随机变量在某个值以下的概率的函数。对于随机变量 ,其累积分布函数 定义为:
这表示随机变量小于或等于某个值的概率。
对于离散型随机变量,其累积分布函数是一个阶梯状的函数,常见的离散型分布有二项分布、泊松分布等。
对于连续型随机变量,其累积分布函数是一个连续的、光滑的函数。常见的连续型分布有正态分布、指数分布等。
1.3. 分位数/分位点 (Quantile)
分位数,是将数据分布划分成若干等份的点,表示在统计学中,将一组数据按大小排序后,某一百分比例位置上的数值。分位数在数据分析中用于描述数据的分布情况,衡量数据的集中趋势和离散程度。
设随机变量的累积分布函数为,对于给定的概率(0到1之间),分位数是满足以下条件的数值:
这意味着随机变量 取值小于或等于的概率为。
下面介绍几个常见的随机变量,以及用SAS实现相关的概率计算。
2. 离散型随机变量
离散型随机变量,是指全部可能取到的值是有限个或可列无限多个。
常见的的离散型随机变量有:
- (0-1)分布 (两点分布)
- 二项分布 (伯努利试验)
- 泊松分布
2.1. (0-1)分布
对于(0-1)分布,其概率分布规律如下,即,随机变量取0或1这两个值的概率。
也可以写成:
(0-1)分布的概率分布很明确,无需SAS处理。
2.2. 二项分布 (Binomial Distribution)
二项分布,描述在次独立试验中,某事件发生次的概率。每次试验只有两种可能结果:成功或失败,成功的概率为,失败的概率为。
二项分布的概率质量函数为:
SAS函数probbnml
返回二项分布的概率,在成功概率为0.5的试验中, 重复10次试验,4次成功的概率的SAS程序,计算如下:
data binomial;
p = 0.5;
n = 10;
k = 4;
probability = probbnml(p, n, k);
run;
2.3. 泊松分布 (Poisson Distribution)
泊松分布,通常用于描述在固定时间间隔或空间区域内,某事件发生的次数。泊松分布假设事件发生的概率是恒定的,并且事件是独立发生的。
设随机变量的取值为, 相应的概率质量函数为
称随机变量服从参数为的泊松分布,记为 。
其中,是在固定时间间隔或空间区域内发生的事件次数;是事件发生的具体次数(0, 1, 2, ...);是单位时间间隔或空间区域内事件的平均发生率;是自然常数,约等于2.71828。
SAS函数poisson
返回泊松分布的概率,在平均发生率为3的情况下,事件发生2次的概率的SAS程序如下:
data poisson;
lambda = 3;
k = 2;
probability = poisson(lambda, k);
run;
3. 连续型随机变量
概率密度函数
如果对于随机变量的分布函数, 存在非负函数, 使对于任意实数有
则称为连续型随机变量,其中函数为的概率密度函数,简称概率密度。即,通过概率密度函数的定积分来求得分布函数值。
于是有,
由定义可知,个别点的函数值不影响分布函数的取值,因为点的定积分值为0。
下面介绍下几个常见连续型随机变量分布的概率密度。
3.1. 正态分布 (Normal Distribution)
正态分布,又称为高斯分布 (Gaussian Distribution),是一种连续型概率分布,在许多自然现象和统计模型中广泛应用。正态分布的概率密度函数呈钟形曲线,对称且集中在均值附近。
正态分布的概率密度为,
一般对于正态分布的随机变量,可以通过线性变换,将其转化为标准正态分布:
分布函数是对概率密度的定积分,SAS中可以通过函数probnorm
计算标准正态分布的分布函数值。例如,对于标准正态分布随机变量,获取 、、程序如下:
data normal;
a = probnorm(-1.96);
b = 1 - probnorm(1.96);
c = probnorm(1.96) - probnorm(-1.96);
run;
其含义是,对于服从标准正态分布的随机变量,在一次抽样中,其值≤-1.96的概率为0.025,>1.96的概率为0.025,在两者之间的概率为0.095。
-1.96又称为标准正态分布的0.025分位数。
一般地,当时,满足概率表达式的 称为标准正态分布的 分位数。
标准正态分布常见的分位数有:
0.9 | 0.95 | 0.975 | 0.99 | 0.995 | 0.999 | |
---|---|---|---|---|---|---|
1.282 | 1.645 | 1.96 | 2.326 | 2.576 | 3.090 |
3.2. 卡方分布 (Chi-Square Distribution)
卡方分布,用于描述从标准正态分布中独立抽取的平方和的分布。
假设是个相互独立的标准正态分布随机变量,即,则这些随机变量的平方和:服从自由度为 的卡方分布,记作 。
卡方分布对应的概率密度如下,n为卡方分布的自由度,
卡方分布的分布函数值,可以通过SAS函数probchi
获取,获取自由度为10的卡方分布分布函数,程序如下:
data chi;
chi = 2;
df = 10;
probability = probchi(chi, df);
run;
3.3. 分布 (Student's t-Distribution)
分布,也称为学生t分布,是一种在样本量较小或总体标准差未知的情况下,用于进行假设检验和构建置信区间的概率分布。t分布由威廉·戈塞特 (William Sealy Gosset) 以“学生” (Student) 的笔名发表,因此得名。
设随机变量 与相互独立,且,,则称服从自由度为的分布,记为。
分布的概率密度函数如下,是伽玛函数,是自由度
分布的分布函数值,可以通过SAS函数probt
获取,获取自由度为10的分布分布函数,程序如下:
data t;
t = 2;
df = 10;
probability = probt(t, df);
run;
3.4. 分布 (F-Distribution)
分布,用于检验两个样本的方差是否相等,在方差分析 (ANOVA)、回归分析和假设检验中广泛应用。
设随机变量与相互独立,,,则称 服从自由度为 的 分布,记为 ,其中称为第一自由度,称为第二自由度。
分布的概率密度函数为
分布的分布函数值,可以通过SAS函数probf
获取,获取自由度为的分布函数,程序如下:
data f;
f = 2;
df1 = 10;
df2 = 10;
probability = probf(f, df1,df2);
run;
总结
文章介绍了随机变量的概率分布、累积分布函数以及分位数的概念,列举了常见的离散型与连续型随机变量概率分布,以及对应概率计算的SAS程序。
对于离散型随机变量,概率分布描述变量取某一可能值的概率;对于连续型随机变量,概率分布描述变量取某一范围内值的概率。
感谢阅读, 欢迎关注:SAS茶谈!
若有疑问,欢迎评论交流!
梳理不易,转载请注明出处 (by Jihai / SAS茶谈)