第一章变量和图形

统计学：科学方法收集、整理、汇总、描述和分析数据资料，并在此基础上进行推断和决策的科学；

归纳统计学/统计推断：通过样本分析来给总体下结论

描述性统计学/演绎统计学：值描述和分析特定对象而不下结论或推断

变量、常量、连续变量、离散变量、连续数据、离散数据

自变量、因变量、函数、单值函数、多值函数

第二章频数分布

数组阵列：原始数据按照数量大小升序或者降序排列，最大值与最小值的差为全距；

组距、组限、组界、组中值、直方图与频率多边形

频率分布=某一组频数/总频数

累计频数分布/累计频数表，累计频数多边形/卵形线

累计频率分布/百分率累计频数=累计频数/总频数

第三章均值、中位数、众数及其他表示集中趋势的度量

一、中位数

定义/解释：按顺序排列的一组数据中居于中间位置的数，即在这组数据中，有一半的数据比他大，有一半的数据比他小

　　# 如果观察值有偶数个，通常取最中间的两个数值的平均数作为中位数。

二、方差

参考百科：方差

　1）定义

　　　方差（variance)：是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量

　2）应用

　　1、在统计描述中

方差用来计算每一个变量（观察值）与总体均数之间的差异

在许多实际问题中，研究方差即偏离程度有着重要意义

为避免出现离均差（X -

）总和为零，离均差平方和受样本含量的影响，统计学采用平均离均差平方和来描述变量的变异程度

总体方差计算公式：

：总体方差

：变量

：总体均值

：总体例数

实际工作中，总体均数难以得到时，应用样本统计量代替总体参数，经校正后，样本方差计算公式：S2 = ∑(X -

)2/ (n - 1)

S2：样本方差

X：变量

：为样本均值

n：样本例数。

　　2、在概率分布中

用来度量随机变量和其数学期望（即均值）之间的偏离程度。

在概率分布中，设X是一个离散型随机变量，若E{[X - E(X)]2}存在，则称E{[X - E(X)]2}为X的方差，记为D(X)，Var(X)或DX，其中E(X)是X的期望值，X是变量值，公式中的E是期望值expected value的缩写，意为“变量值与其期望值之差的平方和”的期望值。

离散型随机变量方差计算公式：D(X)=E{[X - E(X)]2} = E(X2) - [E(X)]2

当D(X) = E{[X-E(X)]2}称为变量X的方差，而

称为标准差（或均方差）。它与X有相同的量纲。标准差是用来衡量一组数据的离散程度的统计量

对于连续型随机变量X，若其定义域为(a, b)，概率密度函数为f(x)，连续型随机变量X方差计算公式：D(X) =

(x - μ)2* f(x)dx，方差刻画了随机变量的取值对于其数学期望的离散程度。（标准差、方差越大，离散程度越大)，若X的取值比较集中，则方差D(X)较小，若X的取值比较分散，则方差D(X)较大。因此，D(X)是刻画X取值分散程度的一个量，它是衡量取值分散程度的一个尺度。

三、标准差

# 参考百科：标准差

　1）定义

标准差（Standard Deviation）又常称均方差，是方差的算术平方根，反映一个数据集的离散程度

　2）应用

在概率统计中：最常使用作为统计分布程度（statistical dispersion）上的测量。

标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个体间的离散程度

测量到分布程度的结果，原则上具有两种性质：

为非负数值，与测量资料具有相同单位

一个总量的标准差或一个随机变量的标准差，及一个子集合样品数的标准差之间，有所差别。

公式：

假设有一组数值X₁,X₂,X₃,......Xn（皆为实数），其平均值（算术平均值）为μ

标准差也被称为标准偏差，或者实验标准差，公式：

　3）其它

简单来说，标准差是一组数据平均值分散程度的一种度量。一个较大的标准差，代表大部分数值和其平均值之间差异较大；一个较小的标准差，代表这些数值较接近平均值

四、均方误差

　1）定义

均方误差（mean-square error, MSE）是反映估计量与被估计量之间差异程度的一种度量。

设t是根据子样确定的总体参数θ的一个估计量，(θ-t)2的数学期望，称为估计量t的均方误差。它等于σ2+b2，其中σ2与b分别是t的方差与偏倚。

　2）名词介绍

相合估计（或一致估计）是在大样本下评价估计量的标准，在样本量不是很多时，人们更加倾向于基于小样本的评价标准，此时，对无偏估计使用方差，对有偏估计使用均方误差。

一般地，在样本量一定时，评价一个点估计的好坏标准使用的指标总是点估计

与参数真值

的距离的函数，最常用的函数是距离的平方，由于估计量

具有随机性，可以对该函数求期望，这就是下式给出的均方误差：

均方误差是评价点估计的最一般的标准，自然，我们希望估计的均方误差越小越好，注意到

上式说明，均方误差

由点估计的方差

与偏差

的平方两部分组成。

如果

是 θ 的无偏估计，则

，此时用均方误差评价点估计与用方差是完全一致的，这也说明了用方差考察无偏估计是合理的。

当

不是 θ 的无偏估计，就要看其均方误差

，即不仅看方差大小，还要看其偏差大小，下面的例子说明在均方误差的含义下，有些有偏估计优于无偏估计。

　3）一致性最小的均方误差估计

定义1：

设有样本

对待估参数 θ，有一个估计类，称

是该类中θ的一致最小均方误差估计，如果对该类估计中另外任意一个θ的估计

，在参数空间

上都有

使用情况：

一致最小均方误差估计通常是在一个确定的估计类中进行的，一致最小均方误差估计一般是不存在的。

既然一致最小均方误差估计一般是不存在的，人们通常就对估计提出一些合理性要求，如无偏性就是一个常见的合理性要求。

一致最小方差无偏估计前面曾指出，均方误差

由点估计的方差

与偏差

的平方两部分组成，当

是 θ 的无偏估计时，均方误差就简化为方差，此时一致最小均方误差估计就是一致最小方差无偏估计。

定义2 ：

设

是 θ 的无偏估计，如果对于任意一个θ的无偏估计

，在参数空间

上都有

则称

是 θ 的一致最小方差无偏估计，简记为UMVUE。

五、估计量

　1）定义

用来估计总体未知参数用的统计量。

在统计学中，估计量是基于观测数据计算一个已知量的估计值的法则：于是估计量（estimator）、被估量（estimand）和估计值（estimate）是有区别的。

估计值：当经测定的具体数值代入估计量时，它就是一个具体的数值，称为估计值，英文是estimator。

　2）举例

设(X1,……,Xn)为来自总体X的样本，(X1,……,Xn)为相应的样本值，θ是总体分布的未知参数，θ∈Θ。

Θ 表示 θ 的取值范围，称 Θ 为参数空间。尽管 θ 是未知的，但它的参数空间 Θ 是事先知道的，为了估计未知参数θ，我们构造一个统计量 h(X1,……,Xn)，然后用 h(X1,……,Xn) 的值 h(X1,……,Xn) 来估计θ的真值，称h(X1,……,Xn)为θ的估计量。

假设存在一个固定的待估参数。那么"估计量"是样本空间映射到样本估计值的一个函数。

的一个估计量记为

。很容易用随机变量的代数来阐述这个理论：因而如果用X来标记对应观测数据的随机变量，估计量（本身视为随机变量）的符号表示为该随机变量的函数，

。对特定观测数据集（即对于X=x）的估计值为一固定值

。通常使用简化标记，用

表示随机变量，不过这会造成误解。

个人理解：

目的：估计总体数据集 X 的分布情况，即 θ；

方法：从总体数据集 X 中抽取一组样本 h，根据 h 的分布以及θ 的取值范围Θ 来估计总体数据集 X 的分布情况 θ。

　3）误差

对于一个给定样本x，估计量

的"误差"定义为

其中

是待估参数。

注意误差e不仅取决于估计量（估计公式或过程），还取决于样本。

　4）均方误差

估计量

的均方误差被定义为误差的平方的期望值，即为：

。

它用来显示估计值的集合与被估计单个参数的平均差异。试想下面的类比：假设“参数”是靶子的靶心，“估计量”是向靶子射箭的过程，而每一支箭则是“估计值”（样本）。那么，高均方误差就意味着每一支箭离靶心的平均距离较大，低均方误差则意味着每一支箭离靶心的平均距离较小。箭支可能集聚，也可能不。比如说，即使所有箭支都射中了同一个点，同时却严重偏离了靶子，均方误差相对来说依然很大。然而要注意的是，如果均方误差相对较小，箭支则更有可能集聚（而不是离散）。

　5）一致性

一致估计量序列是一列随着序号（通常是样本容量）无限增大时依概率收敛于被估量的估计量序列。换句话说，增加样本容量增大了估计量接近总体参数的概率。

在数学上，一个估计量序列 {tn;n≥ 0} 是参数θ 的一致估计量当且仅当对于所有ϵ > 0，不管多小，我们都有

；