随机变量的概率分布

一、度量事件发生的可能性

概率

  • 定义:概率是对事件发生的可能性大小的度量
    • 明天降水的概率是80%。这里的80%就是对降水这一事件发生的可能性大小的一种数值度量;你购买一只股票明天上涨的可能性是30%,这也是一个概率
    • 一个介于0和1之间的一个值
    • 事件A的概率记为P(A)
  • 怎样获得概率?
    • 重复试验获得概率
      当试验的次数很多时,概率P(A)可以由所观察到的事件A发生次数(频数)的比例来逼近
      在相同条件下,重复进行n次试验,事件A发生了m次,则事件A发生的概率可以写为

    • 用类似的比例来逼近
      一家餐馆将生存5年的概率,可以用已经生存了5年的类似餐馆所占的比例作为所求概率一个近似值

    • 主观概率

随机变量

  • 定义:事先不知道会出现什么结果
    • 投掷两枚硬币出现正面的数量;一座写字楼,每平方米的出租价格
      一个消费者对某一特定品牌饮料的偏好 。。。

    • 一般用 X,Y,Z 来表示

    • 根据取值情况的不同分为离散型随机变量和连续型随机变量
      离散型随机变量(discrete random variables)
      随机变量 X 取有限个值或所有取值都可以逐个列举出来 x1 , x2,…
      以确定的概率取这些不同的值

      连续型随机变量(continuous random variables)
      可以取一个或多个区间中任何值
      所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点

离散型随机变量

  • 离散型随机变量的期望值(expected value)
    描述离散型随机变量取值的集中程度
    离散型随机变量X的所有可能取值xi与其取相对应的概率 pi乘积之和

  • 离散型随机变量的方差(variance)
    随机变量X的每一个取值与期望值的离差平方和的数学期望,记为σ2 或D(X)
    方差的平方根称为标准差
    描述离散型随机变量取值的分散程度

连续型随机变量

连续型随机变量的期望值
方差

二、随机变量的概率分布

离散型随机变量的概率分布

列出离散型随机变量X的所有可能取值;列出随机变量取这些值的概率
P(X =xi)=pi称为离散型随机变量的概率函数
常用的有二项分布、泊松分布、超几何分布等

  • 二项试验 (Bernoulli试验)
    二项分布建立在Bernoulli试验基础上,贝努里试验满足下列条件

    • 一次试验只有两个可能结果,即“成功”和“失败”
    • “成功”是指我们感兴趣的某种特征
    • 一次试验“成功”的概率为p ,失败的概率为q =1- p,且概率p对每次试验都是相同的
    • 试验是相互独立的,并可以重复进行n次
    • 在n次试验中,“成功”的次数对应一个离散型随机变量X
  • 二项分布(Binomial distribution)
    重复进行 n 次试验,出现“成功”的次数的概率分布称为二项分布,记为X~B(n,p)
    设X为 n 次重复试验中出现成功的次数,X 取 x 的概率为

已知一批产品的次品率为4%,从中任意有放回地抽取5个。求5个产品中
(1) 没有次品的概率是多少?
(2) 恰好有1个次品的概率是多少?
(3) 有3个以下次品的概率是多少?

连续型随机变量的概率分布

连续型随机变量可以取某一区间或整个实数轴上的任意一个值
它取任何一个特定的值的概率都等于0,不能列出每一个值及其相应的概率
通常研究它取某一区间值的概率,用概率密度函数的形式和分布函数的形式来描述
用概率密度函数的形式和分布函数的形式来描述

正态分布(normal distribution)

由C.F.高斯(Carl Friedrich Gauss,1777—1855)作为描述误差相对频数分布的模型而提出
描述连续型随机变量的最重要的分布
许多现象都可以由正态分布来描述,可用于近似离散型随机变量的分布(例如: 二项分布),是经典统计推断的基础

  • 正态分布函数的性质
    • 图形是关于x=μ对称钟形曲线,且峰值在x=μ处
    • 均值μ和标准差σ一旦确定,分布的具体形式也惟一确定,不同参数正态分布构成一个完整的“正态分布族”
    • 均值μ可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度。σ越大,正态曲线扁平;σ越小,正态曲线越高陡峭
    • 当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交
    • 正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1

标准正态分布(standardize normal distribution)

随机变量具有均值为0,标准差为1的正态分布
任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布

标准正态分布的概率密度函数
标准正态分布的分布函数

数据正态性的评估

  • 对数据画出频数分布的直方图或茎叶图
    若数据近似服从正态分布,则图形的形状与标准正态曲线应该相似
  • 绘制正态概率图。有时也称为分位数—分位数图或称Q-Q图或称为P-P图
    用于考察观测数据是否符合某一理论分布,如正态分布、指数分布、t分布等等
    P-P图是根据观测数据的累积概率与理论分布(如正态分布)的累积概率的符合程度绘制的
    Q-Q图则是根据观测值的实际分位数与理论分布(如正态分布)的分位数绘制的
  • 使用非参数检验中的Kolmogorov-Smirnov检验(K-S检验)

t-分布 (t-distribution)

t 分布是类似正态分布的一种对称分布,通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布

χ2-分布(χ2-distribution)

设X~N(μ,σ2),则 z= (X-μ)/σ~N(0,1)
令Y=z2,则 y 服从自由度为1的χ2分布,即Y~χ2(1)
对于n个正态随机变量y1 ,y2 ,yn,则随机变量χ2称为具有n个自由度的χ2分布,记为X~χ2

性质和特点

  1. 分布的变量值始终为正
    分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称
  2. 期望为:E(χ2)=n,方差为:D(χ2)=2n(n为自由度)
  3. 可加性:若U和V为两个独立的χ2分布随机变量,Uχ2(n1),Vχ2(n2),则U+V这一随机变量服从自由度为n1+n2的χ2分布

F-分布(F distribution)

设若U为服从自由度为n1的χ2分布,即U ~ χ2(n1),V为服从自由度为n2的χ2分布,即V ~ χ2(n2),且U和V相互独立,则

称F为服从自由度n1和n2的F分布,记为 F ~ F(n1,n2)

三、样本统计量的概率分布

  • 参数(parameter)
    描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值
    一个总体的参数:总体均值(μ)、标准差(σ)、总体比例(π);两个总体参数:(μ12)、(π12)、(σ12)
    总体参数通常用希腊字母表示
  • 统计量(statistic)
    用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数
    一个总体参数推断时的统计量:样本均值(▔x)、样本标准差(s)、样本比例(p)等两个总体参数推断时的统计量: (▔x1-▔x2)、(p1-p2)、(s1/s2)
    样本统计量通常用小写英文字母来表示

抽样分布 (sampling distribution)

  1. 样本统计量的概率分布,是一种理论分布
    在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布
  2. 随机变量是 样本统计量
    样本均值, 样本比例,样本方差等
  3. 结果来自容量相同的所有可能样本
  4. 提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据

样本均值的分布

在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布
是一种理论概率分布,推断总体均值μ的理论基础

样本均值的分布与中心极限定理

当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值▔x也服从正态分布,▔x 的期望值为μ,方差为σ2/n。即▔x~N(μ,σ2/n)

样本均值的分布(期望值与方差)

样本均值的分布
样本均值的期望值和方差

样本比例的分布(proportion)

  1. 样本比例定义:总体(或样本)中具有某种属性的单位与全部单位总数之比
    1、不同性别的人与全部人数之比
    2、合格品(或不合格品) 与全部产品总数之比

  2. 总体比例可表示为

  3. 样本比例可表示为

  4. 样本比例的分布定义:在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布,是一种理论概率分布
    当样本容量很大时,样本比例的抽样分布可用正态分布近似,即

样本方差的分布

在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布
对于来自正态总体的简单随机样本,则比值

的抽样分布服从自由度为 (n -1) 的χ2分布,即

样本统计量的概率分布

  • 统计量的标准误差 (standard error)
    样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差
    衡量统计量的离散程度,测度了用样本统计量估计总体参数的精确程度
    样本均值和样本比例的标准误差分别为

  • 估计的标准误差 (standard error of estimation)
    当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误
    以样本均值为例:当总体标准差σ未知时,可用样本标准差s代替,则在重复抽样条件下,样本均值的估计标准误为

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,295评论 6 512
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,928评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,682评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,209评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,237评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,965评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,586评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,487评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,016评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,136评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,271评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,948评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,619评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,139评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,252评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,598评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,267评论 2 358

推荐阅读更多精彩内容