正态分布
一维正态分布的概率密度函数为:
即随机变量X服从均值为,方差为的正态分布,记作。特别的,当,时成为标准正态分布。其函数图像如下所示:
正态分布的性质
- 曲线关于对称:均值、众数、中位数相同。
- 当时取最大值。
- 在处有拐点。
- 若,则。
- 落在区间内的概率是99.7%(可用作异常值检测)。
- 不相关性等价于独立性
当我们由于缺乏关于某个实数上分布的先验知识而不知道该选择怎样的形式时,正态分布是默认的比较好的选择,其中有两个原因:
- 想要建模的很多分布的真实情况是比较接近正态分布的。中心极限定理说明很多独立随机变量的和近似服从正态分布。这意味着在实际中,很多复杂系统都可以被成功地建模成正态分布的噪声,即使系统可以被分解成一些更结构化的部分。
- 在具有相同方差的所有可能的概率分布中,正态分布在实数上具有最大的不确定性。因此,可认为正态分布是对模型加入的先验知识量最小的分布。
分位数
设随机变量的累积分布函数为,对于任意,称的为此分布的分位数。根据实际需要和表示的不同,分位数可进一步细'分为以下几种:
- 上侧分位数:使的
- 下侧分位数:使的
- 双侧分位数:使的以及使的
假设检验里的p值与这一概念紧密相关。
中心极限定理
设随机变量独立同分布,具有相同的数学期望和分布,,则对于任意实数,有
即当足够大时, 的标准化近似服从标准正态分布,或者说近似地服从。
在实际问题中,很多情况下我们并不知道所采样的随机变量所服从的概率分布。但由于中心极限定理,使得对任意分布的统计分析成为可能,这也是假设检验的基石之一。
假设检验
假设一个糖果厂商出品的一种袋装糖果,其标称重量为,方差为。为了判断出场的糖果是否符合自己设计的标准。厂商对一批货物进行抽取了袋称重,每袋的重量为。
得到的结论可以分成2中:
- :该批商品符合设计要求。
-
:该批商品不符合设计要求。
其中又成为零假设。那么,假设是真的,那么就意味着这批货物的实际重量应该服从均值为,方差为的分布(具体分布未知)。那么,根据中心极限定理,我们可以得到一个统计检测量,其中。
由于商品的重量不应过高或过低,因此这里是双侧分位数的概念。假定我们设定p值为0.05,即对于一个服从标准正态分布的随机变量,或的概率为0.05。换句话说,对于我们的统计检测量来说,当为真时,没有落在区间的概率只有5%。这个概率实在是有点太小以至于我们更愿意相信原假设不成立。这就是假设检验的概念和原理。