随机变量的数字特征
- 随机变量分布函数、概率密度、分布律完整描述随机变量,但这都是常数或表格太麻烦,于是描述随机变量特征的常数破土而出
- 随机变量身高,人们关心平均身高;
- 特征常数:描述随机变量的某一方面特征(数学期望、方差、相关系数、矩)
- 举例:射手打靶。随机变量每种结果的可能性列表 = 分布律;样本的加权平均,主要为了预测未来试验的平均水平。
- 事件次数/实验N次 = 事件频率;条件事件/总体事件 = 事件概率;前面说过,N足够大,事件频率近似事件概率
- Σ(k事件概率*k事件) = 加权平均事件 = 随便变量X数学期望或均值 = 前提这个加权平均和是绝对收敛的,否则期望不存在
- 本质:加权平均。已知某人过去的成绩表现分布,预测未来这人的平均表现
- 多维随机变量数学期望Vs一维随机变量数学期望。离散型 :ΣΣ【联合事件 * 联合事件概率】; 连续型:∫∫【联合事件 * 联合密度函数】dxdy
- 期望值就是通过过往的概率分布来预测将来的平均值。可能结果的概率、变量可能输出值的平均值、实现目标的估计
- 平均是现有样本的统计,期望是实验前的预测未来的平均事件水平;
- 概率=频率的无穷大极限。期望就是权重平均数无穷大的极限;
- 平均主要是为了避免受到样本含量影响。简单平均法、加权平均法。
- 样本是总体的一部分,总体得不到的时候,通常用样本统计量来代替总体参数。于是出现了总体方差和样本方差、总体均值和样本均值、总体例数和样本例数的概率
- 期望就是样本均值描述样本集合的中间点,标准差就是样本集合的各个样本带你到均值的距离的平均值。
- E(C) = C
- E(CX) = CE(X)
- E(X+Y) = E(X) + E(Y)
- E(XY) = E(X)E(Y)。前提X和Y相互独立
- 条件:分布律。求解:期望E(X)
- 条件:密度函数f(X)、密度函数f(Y)。求解:Nmin[F(x),F(y)]整个密度函数。1、求出独立随机变量的分布函数 2、求出整个分布函数函数 3、积分得到整体密度函数
- 条件:事件概率p、试验总次数N、事件变量K。求解:平均事件变量不等式
- 条件:Y=g(X)。求解:E(Y)。关键:判断E(X)是否存在。其一判断离散且绝对收敛;其二g(x)f(x)作为被积函数一定是收敛的
- 条件:f(X,Y)联合密度函数。求解:E(1/XY)
- 条件:销售量密度函数f(Y)。求解:预期平均利润E[Q(Y)]不等式
- 条件:价格密度函数f(X)、利润Y = 10-X。求解:预期平均利润E(Y)不等式。关键:分布函数Max和Min
- 期望表示样本均值,但是可能高的特别高,矮的特别矮,所以需要方差来预测所有变量偏离期望的程度,即数据偏离E(X)的平均值或者说以E(X)为圆心的数据离散程度
- D(X)=E{[X-E(X)]^2} = E(X^2)-[E(X)]^2 = 离均差平方的加权平均
- 期望描述年轻人未来的平均表现;方差描述年轻人未来的表现稳定性
- 方差直接算平方和太麻烦,只能先算出E(X^2),然后减去【E(X)】^2得到方差D(X)
- 平均方差除以n-1而不是n,是因为已知E(X)即样本均值,只要确定了n-1个样本数据,剩下的那个自然得出,即无偏估计。问题关键:澄清一个从生下来就是的错误,那就平均数不是除以样本个数,而是除以自由度,普通样本累加平均的自由度是n,而方差因为样本均值E(X)的存在所以自由度为n-1。
- 标准差描述了变量在整体变化过程中偏离均值的幅度
- 方差是数据平方,与检测值相差大,因此发明方差的算术平方根作为标准差
- 自由度n-1
- 量化检测值的准确性、质控
- 评价检测方法的好坏
- 离均差平方和可以很好的弥补极差的缺陷
- 预测投资回报稳定性、评估未来价格的变化和波动
- 期望值μ、标准差σ、位置参数μ、尺度参数σ、正态曲线、均数为中心、μ为服从正态分布的随机变量的均值、σ^2为随机变量的方差
- 一般正态分布、标准正态分布、标准化变换、正态分布变量、变量变换、标准化变量、正态随机变量、变量服从的分布
- 多维正态分布、边缘分布依然正态分布
- 然后积分求得标准正态随机变量的期望为0,方差为1,于是得出E【(X-μ)/σ】= 0,D【(X-μ)/σ】= 1,自然得出E(X) = μ,D(X) = σ^2。其中σ是标准差。
- 本质上,正态分布就是由期望和方差决定的,是否所有的概率密度曲线都可以看成是期望和方差决定的呢!
- 若X1、X2、X3···Xn服从N(μ,σ^2)的正态分布。则X1、X2、X3···Xn的线性组合构成的新随机变量Z依然服从的正态分布。当然X怎么线性变换,μ和σ^2就怎么线性变换。
- 已知X和Y两个正态分布,求Z=2X+3Y的正态分布。E(Z) = E(2X+3Y) = 2E(X) + 3E(Y);D(Z) = D(2X+3Y) = 4D(X) + 9D(Y)
- E(X) = P、E(X^2) = P
- D(X) = E(X^2)-[E(X)]^2= p-p^2 = (1-P)(0-P)^2 + P(1-P)^2 = P(1-P)
- n重伯努利试验、两点分布、是/非试验、
- E(X) = λ = nE(Xi) = np,D(X) = nD(Xi) = np(1-p)
- 二项式分布 = n个相互独立的0-1两点分布累加
- X:n次伯努利试验中事件总共发生次数、Xi:第i次伯努利试验是0或1
- 离散机率分布,分布律P(X=k) = λ^k*e^(-λ)/k!
- λ:单位时间面积内事件平均发生率。X:单位时间面积内事件实际发生率。
- E(X) = Σk[λ^ke^(-λ)/k!] = λ = nP;D(X) = E(X^2)-[E(X)]^2 = E[(X-1)X + X] - [E(X)]^2 = E[X(X-1)] + E(X) - [E(X)]^2 = λ = nP;
- 计算平均发生λ次,实际发生k次的概率
- 阶乘求和 = 幂级数的展开
- E(x) = ∫x*[1/(b-a)]dx = (a+b)/2即区间中心
- D(x) = E(X^2)-[E(X)]^2 = ∫x^2 *[1/(b-a)]dx - [(b+a)/2]^2 = (b-a)^2/12
- 随机变量的取值区间、等可能性、子区间长度
- X服从离散均匀分布P = 1/m;X服从[a,b]上的均匀分布X~U(a,b)
- 本质:均匀分布就是由a和b决定的,同时E(X) = 区间中心 =(b-a)/2;D(X) = 区间差的平方的1/12 = (b-a)^2/12
- λ:单位时间面积内事件平均发生率;θ=1/λ:事件发生的平均时间间隔;
- X~E(λ),则X服从指数分布。求时间间隔为X的概率。例如:P(X=旅客进站是时间间隔);P(X=公交车到站时间间隔)
- E(X) = ∫x * 1/θ*e^(-x/θ)dx = θ = 事件发生平均时间间隔
- D(X) = E(x^2) - [E(x)]^2 = ∫x^2 1/θ*e^(-x/θ)dx - θ^2 = 2θ^2 - θ^2 = θ^2 = 标准差的平方
- 指数分布的缺陷是无法考虑到产品疲劳磨损对时间间隔概率的影响,简称无记忆性
- 本质:指数分布就是由θ这一个参数决定的,这个θ既是期望又是标准差
- 任意常数ε、X-E(X)>ε的概率、D(x)/ε^2
- E(X)决定样本数据的中心点均值大小,ε决定在样本数据上画多大半径的圆
- 圆外面,样本例数/整体样本例数的比例最大只能为D(X)/ε^2;圆里面,样本例数/整体样本例数的比例至少也为1-D(X)/ε^2
- 固定ε圆的半径,D(X)=σ^2越小,圆外的X样本例数就越少。没毛病,毕竟方差越小,X越聚集在E(X)
- D(C) = 0。变量都是恒定的常数,自然离散度为0
- D(X+C) = D(X)。样本所有变量都超一个方向平移一下,自然离散度即标准差不变,自然方差不变
- D(CX) = C^2 * D(X)。样本所有变量都扩大C倍,自然离散度即标准差扩大C倍,自然方差扩大C^2倍
- D(X+Y) = D(X) + D(Y) + 2E{[X-E(X)]*[Y-E(Y)]}。两个样本变量相加,自然离散度叠加标准差,方差 = 标准差的和的平方;如果独立,自然直接为标准差平方和
- 2E{[X-E(X)]*[Y-E(Y)]} = 2【E(XY) - E(X)E(Y) - E(Y)E(X) + E(X)E(Y)】 = 2【E(XY) - E(X)E(Y)】如果X和Y独立,结果为0,则方差D(X+Y) = D(X) + D(Y)
- 方差为0 = 随机变量X一定是一个常数,即概率为1 = 随机变量X的取值总是等于期望均值
- 标准差和方差只能描述一维数据。现在度量两个随机变量之间的关联度。例如:男生猥琐与受女生欢迎的关系。如果X和Y两个变量不独立,那么这种关系会是什么?
- 如果X与Y不独立,协方差与方差的关系:D(X±Y) = D(X)+D(Y)±2E【{X-E(X)} * {Y-E(Y)}】 = D(X)+D(Y) ± 2Cov(X,Y)
- 协方差与期望的关系:Cov(X,Y) = E(XY) - E(X)E(Y)
- 协方差与方差的关系:Cov(X,X)= D(X); Cov(Y,Y)= D(Y)
- 样本的个数、样本的维数、一行一样本、一列一维度
- 协方差矩阵本质计算维度与维度之间的协方差
- Cov(X,Y) = Cov(Y,X)
- Cov(aX,bY)= abCov(X,Y)
- Cov(X1+X2,Y)= Cov(X1,Y)+ Cov(X2,Y)
- Cov(X,X)= D(X); Cov(Y,Y)= D(Y)
- ρXY = Cov(X,Y)/【D(X)D(Y)】^(1/2)。研究变量变化相关性(相似程度)剔除变化幅度标准差的影响,自然除以方差的算术平方根。
- 相关系数ρXY = 0等价于X与Y线性不相关
- 定理:1、|ρXY| < 1;2、|ρXY| = 1的充分必要条件是P{Y=aX+b}=1
- 同向变化正相关、反向变化负相关、协方差绝对值越大则两个变量同向程度越大
- X和Y完全正相关,而且是线性相关的,意味着在直角坐标系中可以画出一条斜率为正数的直线
- 相关系数越小,X和Y两个变量变化时的相似度也就越小。直到为0的时候,X和Y的变化没有任何相似度,即两个变量之间没有线性关系
- 当相关系数小于0继续变小,反向相似度会越来越大。直到变为-1,两个变量的反向相似度最大,当然也是线性相关的,只不过是一条斜率为负数的直线。
- k阶原点矩E(X^k):变量X偏离原点(0,0)的距离的k次方的期望值
- k阶中心矩E{【X-E(X)】^k}:变量X偏离期望均值E(X)的距离的k次方的期望值
- X随机变量、C常数、k正整数。如果X-C的k次方的期望E[(X-C)^k]小于无穷大,那么X-C的k次方的期望为X关于点C常数的k阶矩。
- 如果常数C=0,即X的k次方的期望为X的k阶原点矩。
- 如果常数C=E(X),即X-E(X)的k次方的期望即X关于点E(X)常数的k阶矩,期望为常数的点的k阶矩就称为k阶中心矩,换句话说,方差就可以看成是2阶中心矩。
- 阶矩都是用来描述随机变量的概率分布的。一阶矩预测加权平均E(X);二阶矩预测离散方差D(X);三阶矩预测变量偏斜程度;四阶矩预测变量峰度
- 同向变化、反向变化、协方差数值越大则两个变量同向程度越大
- 描述两个变量变化的相似度
- X、Y的协方差除以X的标准差和Y的标准差
- 特殊的协方差、标准化后的协方差、消除两个变量变化幅度的影响、单纯反应两个变量每单位变化时的相似程度
- 标准差描述了变量在整体变化过程中偏离均值的幅度
- 相关系数为1时,两个变量的同向变化相似度最大,X大一倍,Y也大一倍。X小一倍,Y也小一倍。
- X和Y完全正相关,而且是线性相关的,意味着在直角坐标系中可以画出一条斜率为正数的直线。
- 相关系数越小,X和Y两个变量变化时的相似度也就越小。直到为0的时候,X和Y的变化没有任何相似度,即两个变量无关。
- 当相关系数小于0继续变小,反向相似度会越来越大。直到变为-1,两个变量的反向相似度最大,当然也是线性相关的,只不过是一条斜率为负数的直线。
- 独立描述的是概率密度;线性不相干描述的是期望
- 没有线性关系,但是不排除其它关系的存在
- 如果独立:P{X,Y} = P(X)P(Y);反之不独立,必然Y与X存在除线性以外的关系
- 描述各个向量元素之间的协方差
- 变换矩阵、数据完全去相关、主成分分析
- n个随机变量构成随机向量,样本拼在一起成样本矩阵
- 二维:k阶原点矩(简称k阶矩)、k阶中心矩、k+l阶混合矩、k+l阶混合中心矩
- n维:二维随机变量(X1,X2)四个二阶中心矩,排成矩阵
数理统计
- 以概率论为基础,揭示随机现象规律性
- 通过频率发现内在规律性
- 作出一定精确程度的判断和预测
- 已知随机变量分布,进一步研究性质特点和规律性
- 把抽象的名词变量用数来映射
- 试验或观察对象的数量指标,
- 试验中全部可能观察值称为总体
- 单独的可能观察值称为个体
- 总体中包含的个体个数称为总体容量
- 容量有限为有限总体,容量无限为无限总体
- 总体的个体 = 随机变量的一个观察值,那么一个总体一个随机变量X,即总体=X
- 即容量为n的随机样本,简称样本。
- 样本是进行统计推断的依据,但是如果要研究眼前样本以外的规律,通常都是针对不同问题构造适当函数来进一步推断
- x1、x2、x3·····xn是相应于样本X1、X2、X3····Xn的样本值。
- g(x1、x2、x3·····xn)是g(X1、X2、X3······Xn)的观察值。
- 自变量是样本值,因变量时观察值。
- 设X1、X2、······Xn是来自总体X的一个样本,这个样本的所有个体作为自变量映射,g(X1、X2、······Xn)作为映射函数的因变量,那么这个因变量就是统计量。
- 常用统计量:样本平均值、样本方差、样本标准差、样本k阶(原点)矩、样本k阶中心矩。
- 统计量里面的变量都是字母大写的样本变量,只有样本变量取到具体的值才是观察值。
- 本质:统计量是抽样样本的函数,这个函数的自变量就是抽样样本的样本变量,因变量就是常见的统计量,例如样本均值或样本方差。然后这个常见统计量的分布就称为抽样分布。
- 研究抽取样本的统计量的分布简称抽样分布,就是为了进一步地进行统计推断。问题在于,如何求出更加精确地抽样分布。
- 样本X1、X2、X3····Xn的函数g(X1、X2、X3······Xn)若不包含未知参数,则称为统计量。
- 统计量完全由抽取的样本决定的,统计量是进行统计推断的工具。
- 总体X是一个正态分布,从总体中随机抽取样本,然后研究样本的统计量的分布包括:χ^2分布、τ分布、F分布。称为统计学的三大分布。
- 常见统计量的分布就是抽样分布。一定不会是总体分布,怎么可能计算总体样本的统计量呢,不可能!
- 从已知的总体中随机抽取容量为n的样本,然后研究所抽取样本的统计数所对应的概率分布
- 所有样本变量之和Σ(1 ~ n)Xi,然后除以n得到样本变量均值
- 所有样本变量与样本均值的差的平方之和Σ(1 ~ n)(Xi - 样本均值)^2,然后除以(n-1)个自由度
- 注意:样本方差的自由度为n-1不是n,是因为已知样本均值,等于确定了样本总和,继而确定了n-1个样本变量之后的最后一个样本变量值。
- 抽取的样本中每一个样本变量都服从N(μ,σ^2)正态分布,则样本均值服从N(μ,σ^2/n)正态分布
- X1、X2、X3····Xn是来自总体N(μ,σ^2)的样本,样本均值和样本方差相互独立,但是样本均值和样本方差这两个旧变量构成的新变量居然还能服从于一个新的分布。
- 样本的原点矩和中心矩统称为样本矩。
- k=1时为样本均值,k=2时为样本方差
- 经验分布函数是从样本中计算出来的一种分布函数,不一定符合总体分布函数
- 分布函数是属于总体分布
- 统计推断一类是点估计问题,另一类是假设检验问题
- 总体X分布函数种类已知,但是总体分布函数的一个或多个参数未知,总体中抽取样本求出经验分布函数,估计未知参数点
- 大数定理样本均值估计期望值,而这个期望值就是分布函数的参数估计值
- 已知总体X分布函数形式,明确待估参数、用样本值计算的数字特征估计未知参数的近似值。通过样本均值估计总体均值。
- 统计量θ‘(X1、X2、X3······Xn);的观察值θ‘(x1、x2、x3······xn);作为未知参数θ的近似值;那么这个统计量θ‘(X1、X2、X3······X)就是θ的估计量。本质还是一个变量,本来统计量就是一个变量嘛!
- 观察值θ‘(x1、x2、x3······xn)就是θ的估计值,都说了,是观察值了,就是样本的具体值了,自然就是估计值了。
- 统计量的自变量是样本变量,统计值的自变量是样本观察值。
- 统计量对应估计量,观察值对应统计值。估计量和估计值统称为估计。简记为θ’。
- 估计量是样本的函数,不同的样本值,θ的估计值也是不一样的。
- 参数θ的最大似然估计值:通过最大似然估计法得到的分布函数参数值θ’。
- 参数θ的最大似然估计量:即相应的统计量θ‘(X1、X2、X3······Xn)
- 掌握△△矩估计法(一阶矩、二阶矩)和最大似然估计法
- 本质:矩就是求和
- 利用样本矩估计总体分布函数中的未知参数
- 首先推导常见统计量的总体矩方程、然后取出一个样本并从这个样本估计总体矩,接着用样本估计的总体矩取代未知的总体矩。
- 一阶样本原点矩估计总体期望、二阶样本中心矩估计总体方差
- 辛钦大数定理:简单随机样本的原点矩收敛到相应的总体原点矩。于是想到了可以通过求样本矩来估计总体矩。总体矩找到了,自然总体分布函数的位置参数找到。
- 用前K阶样本矩估计相应的前K阶总体矩,然后利用未知参数与总体矩的函数关系,求出参数的估计量。
- 一阶矩又叫静矩,是对函数与自变量的积xf(x)的积分(连续函数)或求和(离散函数)。
- 矩估计量,矩估计值。
- 求解:a,b的矩估计量。思路:一阶原点矩与a和b的函数关系式、二阶原点矩与a和b的函数关系式、一阶原点矩和二阶原点矩与二阶中心矩的关系。
- 求解:μ,σ^2的矩估计量。思路:一阶原点矩与u的关系、二阶原点矩与μ^2,σ^2的关系、一阶原点矩和二阶原点矩与二阶中心矩的关系。
- 最大概似估计也叫极大似然估计。就是利用已知的样本结果,反推最有可能最大概率导致这样结果的参数值。就是什么样的参数才能使我们观测到这组数据的概率是最大的。给定观察参数来评估模型参数,即“模型即分布类型已定,参数未知”。
- 思想:当从模型总体随机抽取n组样本观测值后,最合理的参数估计量,应该使得从模型中抽取该n组样本观测值的概率最大
- 本质:把估计问题变成了最优化问题。样本太多,无法得出分布的函数值,可以采取小样本后,利用最大似然估计获取假设中分布的参数值。
- 现象出现的概率比那些没有出现的现象的概率要高,如果我们观察到一个现象,那么其出现的概率就应该是最大的。似然函数最大化就是为了逼近这个假设。
- 现在已经取到了样本值x1、x2、x3·····xn,自然表明渠道这一样本值的概率L(θ)最大。
- 概率描述分布函数参数已知时随机变量的输出结果。似然描述随机变量输出结果已知时未知参数的可能取值。
- 对数似然函数:求解函数极值需要求解该函数关于未知参数的偏导数。直接求解似然函数的偏导数极其困难,考虑到e为底的对数函数是单调递增的,如果把似然函数两边先做一个对数处理变成对数似然函数,就可以极大化的简化似然函数。
- 本质:只要一个函数中包含有太多指数函数的乘除,都可以转变成对数来求解。L(θ)与lnL(θ)在同一θ处取到极值。对数似然方程。
- 对同一个似然函数,如果存在一个参数值,使得它的函数值达到最大的话,这个值就是最为合理的参数值。
- 自变量:分布函数的参数;因变量:固定样本观察值的概率。
- 最大似然法求麻袋里黑球和白球的比例。
- 统计全国人民的年均收入
- 求μ,σ^2的最大似然估计量。
- 求a,b的最大似然估计量。
- 通过测量或测定所得到的样本值。
- 算术平均值较观测值更接近于真实值
大数定理和中心极限定理
- 不断试验,不断采样,不断得到随机变量值,不断计算所有已得到随机变量值的平均值,随着随机变量值越来越多,随机变量值的平均值也越来越多,这个随机变量的平均值也越来越逼近于随机变量的期望
- 公式:lim(n->∞)1/n Σ(i=1~n)Xi= E(X)
- 随机变量序列、前一些项、算术平均值、收敛、均值的算术平均值
- 频率稳定性、概率定义、
- 弱大数定理说:样本例数趋近无穷时,样本平均按概率收敛于样本期望。哈哈,为什么是用概率而不是像数列那样直接确定A和b,证明存在N。因为定理不能排除样本平均值偶尔偏离样本期望的情况。
- 强定理说:样本例数趋近无穷时,样本平均几乎确定收敛于样本期望。
- 按概率收敛不排除偶尔的大偏差;几乎确定收敛强制偏差越来越小。
- 伯努利大数定律是大数定理对二项概型的应用
- 大数定律只是证明几乎处处收敛,但是没有指明收敛速度
- 数列收敛:已知A已知b,一定存在|An-A|<b
- 已知A已知半径r和已知b,一定存在|F(x)-A|<b
- 绝对收敛:绝对值收敛,原级数也一定收敛
- 条件收敛:原级数(例如交错级数)收敛,但绝对值级数不收敛
- 依概率收敛:随机变量序列,n趋近无穷大,Xn与常数的差距的可能性趋近0,即Xn与常数相等的可能性趋近1。随着n的增大,Xn与常数的差距越来越小。
- 依分布收敛:
- 弱大数定理
- 各个变量相互独立、且每一个变量都服从同一个分布、这些随机变量构成一个序列、这个序列是一个包含n个变量的样本、样本加权平均即期望E(Xk)、样本算术平均即1/nΣ(1,n)Xk
- 算术平均与加权平均的差的绝对值小于ε的概率为1。本质上,序列样本的数据个数n趋于无穷大时,算术平均数一定是趋近于加权平均数E(X)的。
- 应用广泛,伯努利大数定律是辛钦大数定律的特殊情况
- 辛钦大数定律使算数平均值的法则有了理论依据,即只要n足够大,加权平均其实与算术平均是相等的。
- 需要独立同分布这个条件
- 当实验次数很大的时候,平均值就是期望值。为什么当实验次数很大的时候,平均值就是期望值呢?这就是辛钦大数定理证明的了
- n次试验,成功次数A,p每次成功概率
- 试验次数n区域无穷大时,试验成功次数与总试验次数的比值与每次成功的概率p越来越小。
- 试验次数很大时,事件频率 = 事件概率
- 只需要相互独立,至于每一个变量的分布是否一致这我不管
- 确定何种条件、大量随机变量之和的分布、逼近正态分布
- 揭示了大量独立随机变量的平均数是以正态分布为极限的,但是没有涉及到随机变量的分布问题
- 揭示了收敛的极限分布和渐近方差
- 一套得到一个均值,无穷个均值的分布逼近正态分布
- 前面大数定理说过,累次试验,观察记录得到的随机变量集合也不断增大,集合的平均值也不断在刷新,而且观察到集合的平均值越来越逼近与E(X)。大数定理只是描述了集合平均值的发展趋势,而中心极限定理则是观察所有算出来的集合平均值,发现这些集合平均值居然是服从正态分布的。
- 集合平均值越来越逼近于E(X),那么自然在集合平均值的正态分布上来表示,只有当E(X)就是正态分布的参数μ才会成立,换句话说,对于一个服从正态分布的集合平均值变量来说,只有参数μ才是变量概率最大取到的值。
- 运用中心极限定理,很容易就得到随机过程的期望
- 共同点:研究的对象都是独立同分布的随机变量的和的渐进表现
- 大数定理说的是均值,摇骰子,摇100万次,均值趋3.5
- 中心极限定理说的是分布,每次4颗骰子一起扔,每次都记下4颗的均值,扔100万次,这些均值服从正态分布
- 大数定理研究数据收敛于均值;中心极限定理研究样本收敛于正态分布
- 依概率收敛是强收敛,随机过程强平稳;依分布收敛是弱收敛,随机过程弱平稳
- 大数定理依概率收敛描述随机变量序列的算术平均值依概率收敛到E(X)。
- 中心极限定理依分布收敛描述随机变量序列对应的分布依分布收敛到正态分布。
- 大数定律描述的是频率稳定性,频率依概率逐渐收敛到一个数值,即为概率。
- 中心极限定理描述的是分布稳定性
- 列维-林德伯格中心极限定理(独立同分布随机变量序列的中心极限定理)
- 各个变量之间相互独立、每个变量的分布都相同
- 研究样本序列中的独立同分布变量之和形成的新变量的分布
- 变量之和形成的新变量服从正态分布
- 正态分布是一种自然分布,大量的样本数据趋近于一个特定的值μ,而且是从两侧均匀逼近的
- 应用:实际工作中,只要n足够大,便可以把n个独立同分布的随机变量之和当做是正态分布的变量,这对于大样本数据的处理具有重大的意义
- 单个变量的期望是μ,则所有旧变量之和的期望是nμ;单个变量的方差是σ^2,则所有旧变量之和的方差是nσ^2;自然所有旧变量之和的标准差为σn^(1/2)
- 于是将所有旧变量之和的新变量进行标准化变换的流程为先减去所有旧变量之和的期望nμ,再除以所有旧变量之和的标准差σn^(1/2)。如果说变化前是一个普通的所有旧变量之和的新变量,那么变形之后就变成一个标准化的所有旧变量之和的新变量。这个经过标准化变换的的所有旧变量之和的新变量的标准化之后的新变量自然服从的正态分布是一个标准的正态的分布,服从标准化正态分布意味着变量的区间概率一查表就能算出来。
- 本质:所有旧变量之和的新变量服从正态分布,如果再对这个新变量做一个标准化变换,最后得到的新变量就直接服从标准化的正态分布了。
- 前面论证了所有旧变量之和的新变量,尤其是标准化了之后的新变量是服从正态分布的。重新梳理一下,已知每一个旧变量都独立且同分布服从N(μ,σ^2)这个正态分布,那么有旧变量之和的新变量ΣX服从N(nμ,nσ^2)这个正态分布。从ΣX的标准化变换公式得知:(ΣX - nμ)/n^(1/2)σ^2 * 1/n = (x-μ)/[σ^2/n^(1/2)],自然新变量ΣX的算数平均x服从N(μ,σ^2/n)这个正态分布.
- 总结:旧变量服从均值μ方差σ^2的分布。则所有旧变量的和的新变量的算术平均x服从均值为μ方差为σ^2/n的正态分布。这是梳理统计的基础。
- 旧变量:家庭的耗电量 、局部误差 。所有旧变量之和的新变量:城市用电量、整体误差。
- 棣莫弗-拉普拉斯中心极限定理(二项分布以正态分布为极限分布)
- 证明了二项分布可由正态分布毕竟
- 旧变量服从参数为n、p的二项分布;现在将旧变量η分解成n个相互独立,都服从相同(0,1)分布的新变量X1,新变量X2、新变量X3、新变量X4······新变量Xn的和。每一个新变量的概率都是p和(1-p),那么这时候所有这些新变量的期望E(Xk)=p,所有这些新变量的方差D(X) = p(1-p)。
- 对满足二项式分布的旧变量η进行标准化变换,(η-np)/【np(1-p)】^(1/2) = (ΣXk-np)/np(1-p)】^(1/2) 。现在考虑,当n充分大的时候,可以用标准正态分布来逼近二项式分布,这个二项式分布的变量自然是经过标准化变换的。
- 20个旧变量独立同分布,U(0,10)均匀分布,所有旧变量之和的新变量V = ΣVk,求新变量V的概率。问题关键:确定新变量正态分布的参数μ和参数σ。新变量的期望和方差就就等于各独立变量的期望和方差之和
- 旧变量X独立同分布(0,1)分布。求所有旧变量之和的新变量V概率。E(V)=np,D(V)=np(1-p)。这样总共就是n个独立旧变量的和的新变量的正态分布,现在求的概率正是求新变量的区间概率,如果不知道新变量的正态分布规律,直接通过二项式来求,计算量巨大, 但是现在利用新变量是正态分布这个性质,所有的计算居然变得如此简单,简直,厉害了,我的各。而且,我有一个声明,就是不要轻易将变量换成具体数据,不到万不得已,不要带数据,好么?