随机变量的概率分布

一、度量事件发生的可能性

概率

定义：概率是对事件发生的可能性大小的度量
- 明天降水的概率是80%。这里的80%就是对降水这一事件发生的可能性大小的一种数值度量；你购买一只股票明天上涨的可能性是30%，这也是一个概率
- 一个介于0和1之间的一个值
- 事件A的概率记为P(A)
怎样获得概率？
- 重复试验获得概率
  当试验的次数很多时，概率P(A)可以由所观察到的事件A发生次数(频数)的比例来逼近
  在相同条件下，重复进行n次试验，事件A发生了m次，则事件A发生的概率可以写为
- 用类似的比例来逼近
  一家餐馆将生存5年的概率，可以用已经生存了5年的类似餐馆所占的比例作为所求概率一个近似值
- 主观概率

随机变量

定义：事先不知道会出现什么结果
- 投掷两枚硬币出现正面的数量；一座写字楼，每平方米的出租价格
  一个消费者对某一特定品牌饮料的偏好。。。
- 一般用 X，Y，Z 来表示
- 根据取值情况的不同分为离散型随机变量和连续型随机变量
  离散型随机变量(discrete random variables)
  随机变量 X 取有限个值或所有取值都可以逐个列举出来 x1 , x2，…
  以确定的概率取这些不同的值
  
  连续型随机变量(continuous random variables)
  可以取一个或多个区间中任何值
  所有可能取值不可以逐个列举出来，而是取数轴上某一区间内的任意点

离散型随机变量

离散型随机变量的期望值(expected value)
描述离散型随机变量取值的集中程度
离散型随机变量X的所有可能取值x_i与其取相对应的概率 p_i乘积之和
离散型随机变量的方差(variance)
随机变量X的每一个取值与期望值的离差平方和的数学期望，记为σ² 或D(X)
方差的平方根称为标准差
描述离散型随机变量取值的分散程度

连续型随机变量

连续型随机变量的期望值

方差

二、随机变量的概率分布

离散型随机变量的概率分布

列出离散型随机变量X的所有可能取值；列出随机变量取这些值的概率
P(X =x_i)=p_i称为离散型随机变量的概率函数
常用的有二项分布、泊松分布、超几何分布等

二项试验 (Bernoulli试验)
二项分布建立在Bernoulli试验基础上，贝努里试验满足下列条件
- 一次试验只有两个可能结果，即“成功”和“失败”
- “成功”是指我们感兴趣的某种特征
- 一次试验“成功”的概率为p ，失败的概率为q =1- p，且概率p对每次试验都是相同的
- 试验是相互独立的，并可以重复进行n次
- 在n次试验中，“成功”的次数对应一个离散型随机变量X
二项分布(Binomial distribution)
重复进行 n 次试验，出现“成功”的次数的概率分布称为二项分布，记为X~B(n，p)
设X为 n 次重复试验中出现成功的次数，X 取 x 的概率为

已知一批产品的次品率为4%，从中任意有放回地抽取5个。求5个产品中
(1) 没有次品的概率是多少？
(2) 恰好有1个次品的概率是多少？
(3) 有3个以下次品的概率是多少？

连续型随机变量的概率分布

连续型随机变量可以取某一区间或整个实数轴上的任意一个值
它取任何一个特定的值的概率都等于0，不能列出每一个值及其相应的概率
通常研究它取某一区间值的概率，用概率密度函数的形式和分布函数的形式来描述
用概率密度函数的形式和分布函数的形式来描述

正态分布(normal distribution)

由C.F.高斯(Carl Friedrich Gauss，1777—1855)作为描述误差相对频数分布的模型而提出
描述连续型随机变量的最重要的分布
许多现象都可以由正态分布来描述，可用于近似离散型随机变量的分布（例如：二项分布），是经典统计推断的基础

正态分布函数的性质
- 图形是关于x=μ对称钟形曲线，且峰值在x=μ处
- 均值μ和标准差σ一旦确定，分布的具体形式也惟一确定，不同参数正态分布构成一个完整的“正态分布族”
- 均值μ可取实数轴上的任意数值，决定正态曲线的具体位置；标准差决定曲线的“陡峭”或“扁平”程度。σ越大，正态曲线扁平；σ越小，正态曲线越高陡峭
- 当X的取值向横轴左右两个方向无限延伸时，曲线的两个尾端也无限渐近横轴，理论上永远不会与之相交
- 正态随机变量在特定区间上的取值概率由正态曲线下的面积给出，而且其曲线下的总面积等于1

标准正态分布(standardize normal distribution)

随机变量具有均值为0，标准差为1的正态分布
任何一个一般的正态分布，可通过下面的线性变换转化为标准正态分布

标准正态分布的概率密度函数

标准正态分布的分布函数

数据正态性的评估

对数据画出频数分布的直方图或茎叶图
若数据近似服从正态分布，则图形的形状与标准正态曲线应该相似
绘制正态概率图。有时也称为分位数—分位数图或称Q-Q图或称为P-P图
用于考察观测数据是否符合某一理论分布，如正态分布、指数分布、t分布等等
P-P图是根据观测数据的累积概率与理论分布(如正态分布)的累积概率的符合程度绘制的
Q-Q图则是根据观测值的实际分位数与理论分布(如正态分布)的分位数绘制的
使用非参数检验中的Kolmogorov-Smirnov检验(K-S检验)

t-分布 (t-distribution)

t 分布是类似正态分布的一种对称分布，通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大，分布也逐渐趋于正态分布

χ2-分布(χ2-distribution)

设X~N(μ，σ²)，则 z= (X-μ)/σ~N(0,1)
令Y=z²，则 y 服从自由度为1的χ2分布，即Y~χ2(1)
对于n个正态随机变量y₁ ，y₂ ，y_n，则随机变量χ2称为具有n个自由度的χ2分布，记为X~χ2

性质和特点

分布的变量值始终为正
分布的形状取决于其自由度n的大小，通常为不对称的正偏分布，但随着自由度的增大逐渐趋于对称
期望为：E(χ2)=n，方差为：D(χ2)=2n(n为自由度)
可加性：若U和V为两个独立的χ2分布随机变量，U_χ2(n1)，Vχ2(n2),则U+V这一随机变量服从自由度为n1+n2的χ2分布

F-分布(F distribution)

设若U为服从自由度为n1的χ2分布，即U ~ χ2(n1)，V为服从自由度为n2的χ2分布，即V ~ χ2(n2),且U和V相互独立，则

称F为服从自由度n1和n2的F分布，记为 F ~ F（n₁,n₂)

三、样本统计量的概率分布

参数(parameter)
描述总体特征的概括性数字度量，是研究者想要了解的总体的某种特征值
一个总体的参数：总体均值(μ)、标准差(σ)、总体比例(π)；两个总体参数：(μ₁ -μ₂)、(π₁-π₂)、(σ₁/σ₂)
总体参数通常用希腊字母表示
统计量(statistic)
用来描述样本特征的概括性数字度量，它是根据样本数据计算出来的一些量，是样本的函数
一个总体参数推断时的统计量：样本均值(▔x)、样本标准差(s)、样本比例(p)等两个总体参数推断时的统计量： (▔x1-▔x2)、(p1-p2)、(s1/s2)
样本统计量通常用小写英文字母来表示

抽样分布 (sampling distribution)

样本统计量的概率分布，是一种理论分布
在重复选取容量为n的样本时，由该统计量的所有可能取值形成的相对频数分布
随机变量是样本统计量
样本均值, 样本比例，样本方差等
结果来自容量相同的所有可能样本
提供了样本统计量长远而稳定的信息，是进行推断的理论基础，也是抽样推断科学性的重要依据

样本均值的分布

在重复选取容量为n的样本时，由样本均值的所有可能取值形成的相对频数分布
是一种理论概率分布，推断总体均值μ的理论基础

样本均值的分布与中心极限定理

当总体服从正态分布N(μ,σ2)时，来自该总体的所有容量为n的样本的均值▔x也服从正态分布，▔x 的期望值为μ，方差为σ2/n。即▔x～N(μ,σ²/n)

样本均值的分布(期望值与方差)

样本均值的分布

样本均值的期望值和方差

样本比例的分布(proportion)

样本比例定义：总体(或样本)中具有某种属性的单位与全部单位总数之比
1、不同性别的人与全部人数之比
2、合格品(或不合格品) 与全部产品总数之比
总体比例可表示为
样本比例可表示为
样本比例的分布定义：在重复选取容量为n的样本时，由样本比例的所有可能取值形成的相对频数分布，是一种理论概率分布
当样本容量很大时，样本比例的抽样分布可用正态分布近似，即

样本方差的分布

在重复选取容量为n的样本时，由样本方差的所有可能取值形成的相对频数分布
对于来自正态总体的简单随机样本，则比值

的抽样分布服从自由度为 (n -1) 的χ2分布，即

样本统计量的概率分布

统计量的标准误差 (standard error)
样本统计量的抽样分布的标准差，称为统计量的标准误，也称为标准误差
衡量统计量的离散程度，测度了用样本统计量估计总体参数的精确程度
样本均值和样本比例的标准误差分别为
估计的标准误差 (standard error of estimation)
当计算标准误时涉及的总体参数未知时，用样本统计量代替计算的标准误，称为估计的标准误
以样本均值为例：当总体标准差σ未知时，可用样本标准差s代替，则在重复抽样条件下，样本均值的估计标准误为

随机变量的概率分布