统计量及其统计抽样分布
统计量
def.统计量
$\quad\quad$ 不依赖于任何未知参数,仅与样本相关的量,一般记为$T(X_1, \ldots,X_n)$
常用统计量
$\quad\quad$ $m_k =\frac{1}{n} \sum_{i=1}{n}X_ik$ 样本k阶(原点)矩 反映 总体k阶矩
$\quad\quad$ $\overline{X} = \frac{1}{n} \sum_{i=1}^{n}X_i $样本均值 反映 总体X数学期望,即样本一阶原点矩
$\quad\quad$ $\nu_k = \frac{1}{n-1} \sum_{i-1}^{n}(X_i - \overline{X})^2$ 样本k阶中心矩 反映 总体k阶中心距
$\quad\quad$ $S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2$ 样本方差 反映 总体X方差,即样本二阶中心矩
$\quad\quad$ <u>值得注意的是</u>:
$\quad\quad$$\quad\quad$ 中心距的$\frac{1}{n}$ 被修正为$\frac{1}{n-1}$
次序统计量
$\quad\quad$ 如中位数,分位数,极差等,都是由次序决定的一类重要统计量
充分统计量
$\quad\quad$ 假如某个统计量被提取后能 包含 有关总体的全部信息,称其为充分统计量
$\quad\quad$ 比如,当已知$X=(X_1,\ldots,X_n)$ 为来自$N(\mu, \sigma^2)$ ,
$\quad\quad$$\quad\quad\quad$若$\sigma^2$ 已知,则认为$\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i$ 为 $\mu$ 的 充分统计量
渐近分布
$\quad\quad$ 我们想要知道当样本量$n\to\infty$ 时,统计量$T(X_1, \ldots,X_n)$ 的极限分布会是怎么样
$\quad\quad$ 比如在下文中的中心极限定理,其实就是在说$\frac{\sqrt{n}\thinspace \overline{X}} {\sigma} \to N(0,1)$
$\quad\quad$ 同时我们也不难知道$S^2 \to \sigma ^2$ ,因此其实可以说$\frac{\sqrt{n}\thinspace \overline{X}} {S} \to N(0,1)$
正态分布导出的统计学三大分布
def.$\chi^2$ 分布
$\quad\quad$ 若$X_1,\ldots,X_n$ 相互独立并且服从$N(0,1)$ 分布,则他们的平方和$\sum_{i=1}^{n} {X_i ^2}$ 服从$\chi^2(n)$ 分布
$\quad\quad$ 此处我们暂时不关心它的密度函数,仅仅给出一些常用统计量和它的性质
$\quad\quad$$\quad\quad$ 数学期望$E(\chi^2) =n$
$\quad\quad$$\quad\quad$ 方差$D(\chi^2) = 2n$
$\quad\quad$$\quad\quad$ 可加性,若$\chi_1^2 \sim\chi^2(n_1), \chi_23\sim\chi2(n_2)$ ,且相互独立,则$\chi_1^2 + \chi_2^2 \sim\chi^2(n_1+n_2)$
def.$t\thinspace$分布
$\quad\quad$ 若随机变量$X \sim N(0,1)$ ,$Y\sim\chi^2(n)$ 且$X,Y$ 相互独立,$t(n)=\frac{X}{\sqrt{Y/n}}$ 称为t分布
$\quad\quad$ 待补充。
def.$F$分布
$\quad\quad$ 若随机变量$Y,Z$ 相互独立,且分别服从自由度为m与n的$\chi^2$ 分布,
$\quad\quad$ $F(m,n)=\frac{Y/m}{Z/n}$
$\quad\quad$讲了一大堆我并不懂统计学三大分布存在的意义是什么!wtf?
样本均值的分布与中心极限定理
$\overline{X}$ 的抽样分布
$\quad\quad$ 当$X \sim N(\mu,\sigma^2)$时,$\overline{X} \sim N(\mu, \frac{\sigma^2}{n})$
$\quad\quad$ (几乎等于废话)
中心极限定理
$\quad\quad$ 懒得做赘述了...就是假设总体分布不是很偏的情况下,最终样本均值分布会逼近正态分布
参数估计
参数估计基本原理
估计量与估计值
$\quad\quad$ 比如一个班级的某次考试分数,抽样得到的样本均值$\overline{x}$ 为我们的 估计量,而其具体值80分是我们的 估计值
点估计与区间估计
点估计
$\quad\quad$ 用样本统计量的某个取值直接作为总体参数$\theta$ 的估计值
$\quad\quad$ 但想想都觉得通过一个统计量就定下估计值太不可靠了...于是引出区间估计
区间估计
$\quad\quad$ 在点估计的基础上,给出一个由总体参数估计得到的一个区间范围
$\quad\quad$ 从某种程度上来说,置信区间就像是为捕获未知参数撒出去的网,撒出去的网因样本不同而不同,但未知参数(如总体均值)待在原地待捕捉,捕获的概率称为置信度。
评价估计量的标准
无偏性
$\quad\quad$ 指 估计量抽样分布的数学期望 等于 被估计量的总体参数
$\quad\quad$ 如$\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}{n}(X_i-\overline{X})2$ 为有偏估计量,我们证明其期望不为$\sigma^2$
$$
\begin{align}
\hat{\sigma}^2 &= (\frac{1}{n} \sum_{i=1}{n}X_i2) - \overline{X}^2 \
E(\hat{\sigma}^2) &= (\frac{1}{n} \sum_{i=1}{n}E(X_i2)) - E(\overline{X}^2) \
&= E(X^2) - E(\overline{X}^2) \
&= [D(X) + E^2(X)] - [D(\overline{X}) + E^2(\overline{X})] \
&= \sigma^2 + \mu- \frac{\sigma^2}{n}-\mu =\frac{n-1}{n}\sigma^2
\end{align}
$$
$\quad\quad$ 这正好说明了我们为什么取$S^2$ 为我们对$\sigma^2$ 的无偏估计量,
$\quad\quad$ 而此处总体(原点)矩由样本矩估计的原理来自大数定理: $n\to\infty, \overline{X^k}\to E(X^k)$
有效性
$\quad\quad$ 在无偏估计的条件下,估计值的方差越小,估计就越有效
一致性
$\quad\quad$ 随样本量增加,估计量的值 要<u>越来越逼近</u> 被估总体参数
一个总体参数的区间估计
总体均值的区间估计
$\quad\quad$ 进行区间估计时,我们需要考虑总体
$\quad\quad$ (i)是否为正态分布 (ii)总体方差是否已知 (iii)样本属于大样本($n\ge30$)还是小样本($n<30$)
正态总体、方差已知,或非正态大样本(中心极限)
$\quad\quad$ 样本均值在标准化后随机变量服从标准正态分布,即
$$
z \thinspace = \thinspace \frac{\overline{x}-\mu} {\sigma / \sqrt{n}} \thinspace \sim N(0,1)
$$
$\quad\quad$ 当置信度为$1- \alpha$ 时,取$z_{\alpha/2}$ 为标准正态分布<u>右侧面积</u>为$\alpha /2$ 时的值,则我们的置信区间由我们的点估计值和估计误差组成,可以写为$\overline{x}\pm z_{\alpha/2}\sigma_{\overline{x}}$ 或 $\overline{x} \pm z_{\alpha/2}s_\overline{x}$ (视总体方差是否可知决定)
正态总体、方差未知、小样本
$\quad\quad$ 样本均值在标准化后随机变量服从自由度为(n-1)的t分布,即
$$
t \thinspace =\thinspace \frac{\overline{x}-\mu}{s/\sqrt{n}} \thinspace \sim \thinspace t(n-1)
$$
$\quad\quad$ 与上例类似,当置信度为$1- \alpha$ 时,取置信区间为$\overline{x} \pm t_{\alpha/2}s_{\overline{x}}$
总体方差的区间估计
$\quad\quad$ 这里只讨论正太总体方差的估计问题,显然由定义选择用$\chi^2$ 分布来构造总体方差的置信区间
$\quad\quad$ 根据推导我们得到,在$1- \alpha$ 的置信度下,置信区间为
$$
\frac{(n-1)s2}{\chi_{\alpha/2}2} \le \sigma^2 \le \frac{(n-1)s^2}{\chi_{1- \alpha/2}^2}
$$
两个总体参数的区间估计
一般来说,对于两个总体,我们关心的参数主要为$\mu_1-\mu_2$ 等,此处只做简单介绍
独立样本
大样本估计
$\quad\quad$ 下式的得出比较显然,下式中$\sigma^2$ 显然可替换为$s^2$
$$
(\overline{x_1} - \overline{x_2}) \pm z_{\alpha/2}\sqrt{\frac{\sigma_12}{n_1}+\frac{\sigma_22}{n_2}} \quad (P=1- \alpha)
$$
小样本估计
$\quad\quad$ 需要分为两种情况
$\quad\quad$ - 方差$\sigma_12,\sigma_22$ 未知且相等
$\quad\quad$ - 方差$\sigma_12,\sigma_22$ 未知且不相等
$\quad\quad$ 具体公式先留着,和预料的有点区别,暂时不是很理解t分布是怎么用来估计的
假设检验
假设问题的提出
$\quad\quad$ 我们先提出一个简单的例子:
$\quad\quad$ 1989年某地新生儿平均体重为3190g,现从1990年新生儿中抽取100g,测得平均体重为3210g。
$\quad\quad$ 问:平均体重是否有明显差异?
假设的表达式
$\quad\quad$ 我们取原假设为"无明显差异"
$\quad\quad$$H_0:\mu=3190(g)$ (更一般地,我们可以写为$H_0:\mu=\mu_0$ )
$\quad\quad$ 但正如我们所说的,这仅仅是个假设,完全可以被拒绝。被拒绝时,我们选择另一面。
$\quad\quad$ 我们称$H_1 \neq 3190(g)$ 为备择假设,一般形式同上
两类错误
$\quad\quad$ $\alpha$ 错误(弃真错误):原假设正确,判断其错误。
$\quad\quad$ $\beta$ 错误(取伪错误):原假设错误,判断其正确。
$\quad\quad$ 通用原则:哪一类错误<u>后果严重</u>,就首要控制它。
$\quad\quad$ 比较显然的一点是$\alpha$ 和 $\beta$ 错误此消彼长,弃真错误多说明标准太高,但这也意味着取伪错误会更少
假设检验一般流程
$\quad\quad$ 首先提出原假设和备择假设
$\quad\quad$$\quad\quad$ $H_0:\mu=3190(g)$
$\quad\quad$$\quad\quad$ $H_1:\mu \neq 3190(g)$
$\quad\quad$ 确定适当的检验统计值,并计算数值
$\quad\quad$$\quad\quad$ 比如在上例中我们采用z统计量的话,则标准得分应为$z=\frac{\overline{x}-\mu_0}{\sigma/\sqrt{n}}$
$\quad\quad$ 确定置信区间,一般取$\alpha = 0.05$ ,因为我们常认为,小概率的标准为0.05
$\quad\quad$ 然后判断就很简单了
$\quad\quad$$\quad\quad$ 若$|z|<|z_{\alpha/2}|$ ,不拒绝$H_0$
$\quad\quad$$\quad\quad$ 若$|z|>|z_{\alpha/2}|$ ,拒绝$H_0$
$\quad\quad$ 那...岂不是假设值落不落在置信区间的简单判断了?略过后面很大一块重复置信区间的内容
$\quad\quad$ 但是这里会出现一个问题,我们的弃真错误始终是0.05,不同的被拒绝假设无法被区分。引出p-value
$\quad\quad$ p-value一般取决于三个因素:
$\quad\quad$$\quad\quad$i)样本数据与原假设差异 ii)样本量 iii)被假设参数的总体分布
单侧检验
$\quad\quad$ 若命题为$\mu = \mu_0$ 的形式,我们一般如上采用双侧检验,也就是$\mu > \mu_0$ 和$\mu < \mu_0$ 其一成立则拒绝原假设
$\quad\quad$双侧检验中,一般取$P>0.025(\alpha/2)$ 为接受条件
$\quad\quad$单侧检验中,一般取$P>0.05$ 为接受条件,如下图为 右单侧检验
<img src="https://ss0.bdstatic.com/70cFvHSh_Q1YnxGkpoWK1HF6hhy/it/u=332862361,3699234221&fm=27&gp=0.jpg" width="30%" />