一、度量事件发生的可能性
概率
- 定义:概率是对事件发生的可能性大小的度量
- 明天降水的概率是80%。这里的80%就是对降水这一事件发生的可能性大小的一种数值度量;你购买一只股票明天上涨的可能性是30%,这也是一个概率
- 一个介于0和1之间的一个值
- 事件A的概率记为P(A)
- 怎样获得概率?
-
重复试验获得概率
当试验的次数很多时,概率P(A)可以由所观察到的事件A发生次数(频数)的比例来逼近
在相同条件下,重复进行n次试验,事件A发生了m次,则事件A发生的概率可以写为 用类似的比例来逼近
一家餐馆将生存5年的概率,可以用已经生存了5年的类似餐馆所占的比例作为所求概率一个近似值主观概率
-
随机变量
- 定义:事先不知道会出现什么结果
投掷两枚硬币出现正面的数量;一座写字楼,每平方米的出租价格
一个消费者对某一特定品牌饮料的偏好 。。。一般用 X,Y,Z 来表示
-
根据取值情况的不同分为离散型随机变量和连续型随机变量
离散型随机变量(discrete random variables)
随机变量 X 取有限个值或所有取值都可以逐个列举出来 x1 , x2,…
以确定的概率取这些不同的值连续型随机变量(continuous random variables)
可以取一个或多个区间中任何值
所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点
离散型随机变量
-
离散型随机变量的期望值(expected value)
描述离散型随机变量取值的集中程度
离散型随机变量X的所有可能取值xi与其取相对应的概率 pi乘积之和 -
离散型随机变量的方差(variance)
随机变量X的每一个取值与期望值的离差平方和的数学期望,记为σ2 或D(X)
方差的平方根称为标准差
描述离散型随机变量取值的分散程度
连续型随机变量
二、随机变量的概率分布
离散型随机变量的概率分布
列出离散型随机变量X的所有可能取值;列出随机变量取这些值的概率
P(X =xi)=pi称为离散型随机变量的概率函数
常用的有二项分布、泊松分布、超几何分布等
-
二项试验 (Bernoulli试验)
二项分布建立在Bernoulli试验基础上,贝努里试验满足下列条件- 一次试验只有两个可能结果,即“成功”和“失败”
- “成功”是指我们感兴趣的某种特征
- 一次试验“成功”的概率为p ,失败的概率为q =1- p,且概率p对每次试验都是相同的
- 试验是相互独立的,并可以重复进行n次
- 在n次试验中,“成功”的次数对应一个离散型随机变量X
-
二项分布(Binomial distribution)
重复进行 n 次试验,出现“成功”的次数的概率分布称为二项分布,记为X~B(n,p)
设X为 n 次重复试验中出现成功的次数,X 取 x 的概率为
已知一批产品的次品率为4%,从中任意有放回地抽取5个。求5个产品中
(1) 没有次品的概率是多少?
(2) 恰好有1个次品的概率是多少?
(3) 有3个以下次品的概率是多少?
连续型随机变量的概率分布
连续型随机变量可以取某一区间或整个实数轴上的任意一个值
它取任何一个特定的值的概率都等于0,不能列出每一个值及其相应的概率
通常研究它取某一区间值的概率,用概率密度函数的形式和分布函数的形式来描述
用概率密度函数的形式和分布函数的形式来描述
正态分布(normal distribution)
由C.F.高斯(Carl Friedrich Gauss,1777—1855)作为描述误差相对频数分布的模型而提出
描述连续型随机变量的最重要的分布
许多现象都可以由正态分布来描述,可用于近似离散型随机变量的分布(例如: 二项分布),是经典统计推断的基础
- 正态分布函数的性质
- 图形是关于x=μ对称钟形曲线,且峰值在x=μ处
- 均值μ和标准差σ一旦确定,分布的具体形式也惟一确定,不同参数正态分布构成一个完整的“正态分布族”
- 均值μ可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度。σ越大,正态曲线扁平;σ越小,正态曲线越高陡峭
- 当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交
- 正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1
标准正态分布(standardize normal distribution)
随机变量具有均值为0,标准差为1的正态分布
任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布
数据正态性的评估
- 对数据画出频数分布的直方图或茎叶图
若数据近似服从正态分布,则图形的形状与标准正态曲线应该相似 - 绘制正态概率图。有时也称为分位数—分位数图或称Q-Q图或称为P-P图
用于考察观测数据是否符合某一理论分布,如正态分布、指数分布、t分布等等
P-P图是根据观测数据的累积概率与理论分布(如正态分布)的累积概率的符合程度绘制的
Q-Q图则是根据观测值的实际分位数与理论分布(如正态分布)的分位数绘制的 - 使用非参数检验中的Kolmogorov-Smirnov检验(K-S检验)
t-分布 (t-distribution)
t 分布是类似正态分布的一种对称分布,通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布
χ2-分布(χ2-distribution)
设X~N(μ,σ2),则 z= (X-μ)/σ~N(0,1)
令Y=z2,则 y 服从自由度为1的χ2分布,即Y~χ2(1)
对于n个正态随机变量y1 ,y2 ,yn,则随机变量χ2称为具有n个自由度的χ2分布,记为X~χ2
性质和特点
- 分布的变量值始终为正
分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 - 期望为:E(χ2)=n,方差为:D(χ2)=2n(n为自由度)
- 可加性:若U和V为两个独立的χ2分布随机变量,Uχ2(n1),Vχ2(n2),则U+V这一随机变量服从自由度为n1+n2的χ2分布
F-分布(F distribution)
设若U为服从自由度为n1的χ2分布,即U ~ χ2(n1),V为服从自由度为n2的χ2分布,即V ~ χ2(n2),且U和V相互独立,则
称F为服从自由度n1和n2的F分布,记为 F ~ F(n1,n2)
三、样本统计量的概率分布
- 参数(parameter)
描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值
一个总体的参数:总体均值(μ)、标准差(σ)、总体比例(π);两个总体参数:(μ1 -μ2)、(π1-π2)、(σ1/σ2)
总体参数通常用希腊字母表示 - 统计量(statistic)
用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数
一个总体参数推断时的统计量:样本均值(▔x)、样本标准差(s)、样本比例(p)等两个总体参数推断时的统计量: (▔x1-▔x2)、(p1-p2)、(s1/s2)
样本统计量通常用小写英文字母来表示
抽样分布 (sampling distribution)
- 样本统计量的概率分布,是一种理论分布
在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 - 随机变量是 样本统计量
样本均值, 样本比例,样本方差等 - 结果来自容量相同的所有可能样本
- 提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据
样本均值的分布
在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布
是一种理论概率分布,推断总体均值μ的理论基础
样本均值的分布与中心极限定理
当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值▔x也服从正态分布,▔x 的期望值为μ,方差为σ2/n。即▔x~N(μ,σ2/n)
样本均值的分布(期望值与方差)
样本比例的分布(proportion)
样本比例定义:总体(或样本)中具有某种属性的单位与全部单位总数之比
1、不同性别的人与全部人数之比
2、合格品(或不合格品) 与全部产品总数之比-
总体比例可表示为
-
样本比例可表示为
样本比例的分布定义:在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布,是一种理论概率分布
当样本容量很大时,样本比例的抽样分布可用正态分布近似,即
样本方差的分布
在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布
对于来自正态总体的简单随机样本,则比值
的抽样分布服从自由度为 (n -1) 的χ2分布,即
样本统计量的概率分布
-
统计量的标准误差 (standard error)
样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差
衡量统计量的离散程度,测度了用样本统计量估计总体参数的精确程度
样本均值和样本比例的标准误差分别为 -
估计的标准误差 (standard error of estimation)
当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误
以样本均值为例:当总体标准差σ未知时,可用样本标准差s代替,则在重复抽样条件下,样本均值的估计标准误为