大数据之统计学基础(二):随机变量及其概率分布

随机变量及其概率分布

随机变量(r.v)是研究随机试验中的一串事件:比如掷一颗骰子,用X表示骰子的点数,由于X的取值我们无法确定,所以称X是一个随机变量,随机变量的取值随机会而定。

1.随机变量的类型:

1.1离散型:
1.1.1 离散型r.v.X :离散型 r.v.X取有限或可数多个值:
  • 离散型随机变量的分布 (1)

P(X=x_k) = P_k \ \ k=1,2,3...n

  • 离散型随机变量的分布 (2)
X x1 x2 ... xn
P P1 p2 ... pn
1.2 连续型

若df满足如下条件:存在非负函数f(x),且 \int f(x)dx =1 , F(x) =\int_{-\infty}^x f(x)dx
则称F(x)为连续型df,对应的r.v X称为连续型随机变量。


2 随机变量的概括性度量:

2.1 期望值:描述随机变量水平的统计量
2.1.1 离散型随机变量的期望:

\mu = E(x) = \sum{x_ip_i}

2.1.2 连续型随机变量的期望:

\mu = E(x) = \int_{-\infty}^{\infty}xf(x)dx

2.2 方差: 描述随机变量离散程度的统计量
2.2.1 离散型随机变量的方差:

\sigma^2 = D(x) = \sum{(x_i-\mu)^2p_i}

2.2.2 连续型随机变量的方差:

\sigma = D(x) = \int_{-\infty}^{\infty}(x-u)^2f(x)dx


3 几种常见的分布

3.1 常见的离散型分布:二项分布、泊松分布、超几何分布
3.2 常见的连续型分布:正态分布、均匀分布、指数分布
3.3 其他几个重要的分布卡方分布、t分布、F分布

关于以上分布的分布函数、概率密度函数、描述性统计量、函数图像等信息在任何一本统计学教材均可查看,本文就不再赘述。


4 样本统计量及其概率分布的相关概念

参数:对总体特征的某个度量,通常情况下总体参数的值是未知的,需要通过样本信息进行推断;

统计量:根据样本数据计算的用于推断总体的某些量,是对样本特征的某个概括性度量;样本统计量是一个随机变量。

统计量的概率分布:统计量是一个随机变量,它有一定的概率分布,样本统计量的概率分布也称为抽样分布,它是由样本统计量的所有可能取值形成的相对评率分布。统计量的概率分布实际上是一种理论分布。

比例:比例是指总体中具有某种属性的个体与全部个体之和的比值。

标准误:统计量的标准误是指统计量分布的标准差,也称为标准误差,标准误差用于衡量样本统计量的离散程度,在参数估计和假设检验中,它是用于衡量样本统计量与总体参数之间差距的一个重要尺度; 例如:对一个总体多次抽样,每次样本大小都为n,那么每个样本都有自己的平均值,这些平均值的标准差叫做标准误差。

标准误的计算公式如下
SE =\sigma_{\bar{x}} = \sigma/\sqrt{n}


参考资料:

贾俊平.《统计学-基于R》 第三版
茆诗松.《概率论与数理统计教程》 第二版

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容