0. 主要概念及其定义
- 最小二乘法准则
- 误差平方和
- 总平方和
- 回归平方和
-
之间的关系
- 判定系数
如果我们用一个百分比来表示判定系数,则 可以理解为总平方和中能被估计的回归方程解释的百分比。也即应变量的变异性有多少百分比能被回归方程所解释。 - 修正多元判定系数
其中,代表观测值的数目,表示自变量的数目。 - 样本相关系数
其中 为估计的回归方程 的斜率。
在两变量之间存在一个线性关系的情况下,判定系数和样本相关系数都给出了它们之间线性关系强度的度量。但是样本相关系数被限制在两变量之间存在线性关系的情况,而判定系数对非线性关系以及有两个或两个以上自变量的相关关系都适用。
1. 简单线性回归
含有一个自变量和一个应变量,并且两个变量之间的关系用一条直线近似的回归分析。
1.2 模型的假定
关于回归模型 的误差项 的假定
- 误差项 是一个平均值或者期望值为零的随机变量,即 。
这就意味着,因为 和 都是常数,所以有 和 ;于是,对于一个给定的 值, 的期望是 - 对所有的 值, 的方差都是相同的,用 表示方差。
这就意味着, 关于回归直线的方差等于 ,也就是说,对于所有的 , 的方差都是相等的。 -
的值是相互独立的。
这就意味着,对于一个特定的 值,它所对应的 值与任何其他的 值所对应的 值不相关。 - 对所有的 值,误差项 是一个正态分布的随机变量。
这就意味着,因为 是 的一个线性函数,所以对所有的 值, 也是一个正态分布的随机变量。
1.3 显著性检验
对于简单线性回归模型 ,如果 和 之间存在一个线性关系,则必须有 。显著性检验的目的就是我们能否断定 。
1.3.1 的估计
残差平方和 是实际观测值关于估计的回归直线变异性的度量, 除以它的自由度,得到的均方误差 是 的一个估计量。为了计算 ,必须估计两个参数 和 ,所以 的自由度为 。
1.3.2 检验
建立原假设和备择假设
检验统计量
拒绝法则
值法:如果 值,则拒绝
临界值法:如果 或者,则拒绝
其中, 为自由度 的 分布上侧的面积为 时对应的 值。
的抽样分布
- 期望值
- 标准差
- 分布形式:正态分布
- 估计的标准差
1.3.3 的置信区间
其中, 为 的点估计量; 为边际误差。 为自由度 的 分布上侧的面积为 时对应的 值。我们可以利用置信区间对 进行任何双侧假设检验,如果 的假设值包括在置信区间里,则不拒绝 ,否则,拒绝 。
1.3.4 检验
建立原假设和备择假设
检验统计量
拒绝法则
值法:如果 值,则拒绝
临界值法:如果 ,则拒绝
其中, 为分子自由度 ,分母自由为 时,使 分布上侧的面积为 时对应的 值, 的计算公式如下:
如果 不成立, 仍然是 的一个无偏估计量,而 会高估 ;如果 成立, 和 都是 的无偏估计量,在这种情况下, 应接近于 。
简单线性回归 的一般形式:
方差来源 | 平方和 | 自由度 | 均方 | F | -值 |
---|---|---|---|---|---|
回归 | |||||
误差 | |||||
总计 |
1.4 应用估计的回归方程进行估计和预测
1.4.1 的平均值的置信区间
置信区间:对于一个给定的 值, 的平均值的区间估计。
其中, 为置信系数, 为自由度 的 分布上侧的面积为 时对应的 值。估计值 的标准差的计算公式:
当 时,就能得到 的平均值最佳或是最精确的估计量;当 偏离 愈远,差 就变得愈大, 的平均值的置信区间就变得愈宽。
1.4.2 的一个个别值的预测区间
预测区间:对于一个给定的 值, 的一个个别值的区间估计。
其中, 为置信系数, 为自由度 的 分布上侧的面积为 时对应的 值。估计值 的标准差的计算公式:
1.5 残差分析
在 中,我们对误差项 做了 项假定,残差分析是确定误差项 是否成立的重要步骤。
残差图主要有以下 种:
- 关于自变量 的值的残差图。
- 关于应变量的预测值 的残差图。
- 标准化残差图。
- 正态概率图。
1.5.1 关于自变量 的值的残差图
第一个坐标为 ,第二个坐标为对应的第 个残差 的值。
如果模型满足残差的假定,则所有散点都应落在一条水平带中间。
1.5.2 关于 的残差图
第一个坐标为 ,第二个坐标为对应的第 个残差 的值。
如果模型满足残差的假定,则所有散点都应落在一条水平带中间。
1.5.3 标准化残差图
第 个残差的标准差
其中, 代表第 个残差的标准差, 代表估计的标准误差。 被称为第 次观测的杠杆率:
表示的是某一个自变量的观测值和所有观测值的平均值之间距离远近的度量。第 次观测的标准化误差
如果模型满足残差的假定,标准化残差分布也应该服从一个标准正态概率分布。大约 的标准化残差应介于 。
1.5.4 正态概率图
正态概率图 (Normal Probability Plot) 用于检查一组数据是否服从正态分布,如果该组数据服从正态分布,则正态概率图会是一条直线。
QQ-Plot (Quantile-Quantile Plot)用来判断样本是否近似服从某种分布,或验证两组数据是否来至同一分布。
- 正态分数
假设从一个平均值为 ,标准差为 的标准正态概率分布中随机地抽取 个数值,并将这一抽样过程反复进行,然后把每个样本中的 个数值进行排序,则每个顺序上的一组值对应的期望值被称为正态分数,排序上的第 个正态分数被称为 阶顺序统计量。
用水平轴表示正态分数,用纵轴表示对应的标准化残差(即也按照从小到大进行排序,然后一一对应的值)所做的散点图。如果模型满足残差的假定,则这些散点应密集围绕在通过坐标轴原点的 直线附近。
1.5.5 异常值和有影响的观测值
- 异常值
可通过标准化残差图来看,如果标准化残差小于 或者大于 ,则 会将该值标注为异常值(数据被单独打印,最后带 )。 - 有影响的观测值
自变量是极端值的观测值被称为高杠杆率点,如果杠杆率 ,则 会将该值标注为具有高杠杆率的观测值(数据被单独打印,最后带 )
有影响的观测值是由于大的残差和高杠杆率的交互作用而产生的。
2. 多元回归
包含两个或两个以上自变量的回归分析。
2.1 模型的假定
关于多元回归模型 的误差项 的假定
- 误差项 是一个平均值或者期望值为零的随机变量,即 。
这就意味着,对于一个给定的 的值, 的期望是 - 对所有的 值, 的方差都是相同的,用 表示方差。
这就意味着, 关于回归线的方差等于 。 -
的值是相互独立的。
这就意味着,对于自变量 的一组特定的值,它所对应的 值与任何其他组 值所对应的 值不相关。 - 误差项 是一个服从正态分布的随机变量。
这就意味着,对所有的 值, 也是一个正态分布的随机变量。
2.2 显著性检验
- 检验用于确定在应变量和所有自变量之间是否存在一个显著性的关系, 检验也称为总体的显著性检验。
- 如果 检验已经表明了模型总体的显著性,那么 检验用来确定每一个单个的自变量是否为一个显著性的自变量。对模型中每一个单独的自变量,都要单独的进行 检验。
2.2.1 总体显著性的 检验
建立原假设和备择假设
检验统计量
拒绝法则
值法:如果 值,则拒绝
临界值法:如果 ,则拒绝
其中, 为分子自由度 ( 为自变量的个数),分母自由为 时,使 分布上侧的面积为 时对应的 值, 的计算公式如下:
如果 不成立, 仍然是 的一个无偏估计量,而 会高估 ;如果 成立, 和 都是 的无偏估计量,在这种情况下, 应接近于 。
具有 个自变量的多元回归模型的 表:
方差来源 | 平方和 | 自由度 | 均方 | F | -值 |
---|---|---|---|---|---|
回归 | |||||
误差 | |||||
总计 |
2.2.2 单个参数显著性的 检验
建立原假设和备择假设:对于任一个参数
检验统计量
拒绝法则
值法:如果 值,则拒绝
临界值法:如果 或者,则拒绝
其中, 为自由度 的 分布上侧的面积为 时对应的 值; 是 标准差的估计。
2.3 多重共线性
在多元回归分析中,我们把自变量之间的相关性称为多重共线性。
在对单个参数的显著性进行 检验时,由于多重共线性带来的困难是:当多元回归方程总体显著性的 检验表明有一个显著的关系时,我们可能得出单个参数没有一个是显著的不同于零的结论。只有当变量之间的相关性非常小时,才有可能回避这个问题。如果两个变量之间的样本相关系数的绝对值大于 ,多重共线性有可能成为一个潜在的问题。
2.4 分类变量的处理
如果一个分类变量有 个水平,那么需要定义 个虚拟变量,每一个虚拟变量或者取值为 , 或者取值为 。
2.5 残差分析
残差图与简单线性回归一致。
2.5.1 学生化删除残差
假设从数据集中删除第 次观测值,利用其余的 次观测值建立一个新的估计的回归方程,设 表示从数据集中删除了第 次观测值后得到的估计的标准误差,如果我们计算第 次观测的残差的标准差,用 代替 中的 ,那我们在计算第 次观测的标准化残差时, 利用了 的修正值,这样得到的标准化残差称为学生化删除残差。如果第 次观测值是一个异常值,那么 将小于 。所以,第 次观测的学生化删除残差的绝对值将大于标准化残差的绝对值。所以,学生化删除残差可以检测出标准化残差不能检测出的异常值。
2.5.2 有影响的观测值
中判定准则是
有时候仅根据杠杆率来识别有影响的观测值,可能导致错误的结论,因此,引出 库克距离测度(Cook's distance measure)
其中, 代表第 次观测的库克距离测度, 代表第 次观测的残差, 代表第 次观测的杠杆率, 代表自变量的个数, 代表估计的标准误差。
作为经验准则,如果 ,则表明第 次观测值是一个有影响的观测值。
3. Logistic 回归
3.1 回归方程
如果应变量 的值被赋值为 或者 ,那么在自变量 的一组特定值已知的条件下,式 中 的值给出了 的概率。所以式 又可以写成
3.2 估计的 logistic 回归方程
式中, 是在自变量 的一组特定值已知时,给出了 的概率。
3.3 显著性检验
3.3.1 总体的显著性的 检验
建立原假设和备择假设
检验统计量为 统计量。如果原假设成立,则 统计量的抽样分布为服从自由度等于模型中自变量的个数的 分布。
3.3.2 单个参数显著性的 检验
如果 检验表明模型的总体是显著的,则可以利用 检验来确定每一个单个自变量对模型总体是否有显著的作用。
建立原假设和备择假设:对于任一个参数
如果原假设成立,则估计的系数 除以它的标准差 后,得到的结果 为一服从标准正态分布的统计量。
3.4 解释 logistic 回归方程
- 有利于一个事件发生的机会比 (odds in favor of an event occurring)
事件将要发生的概率与该事件将不会发生的概率的比。在自变量的一组特定值已知时,有利于事件 发生的机会比可以按照下式计算:
- 机会比率 (odds ratio)
度量一组自变量中只有一个自变量增加了一个单位时,对机会比的影响。即当给定的一组自变量中的一个自变量增加了一个单位时, 的机会比 () 除以该组自变量的值都没有变化时, 的机会比 ()
- 机会比率和回归系数之间的关系
一个变量的机会比率和它所对应的回归系数之间存在一个唯一的关系:
当自变量变化一个单位,而所有其他的自变量都保持不变时,一个自变量的机会比率描述了该自变量机会比的变化。当一个自变量的变化大于 个单位时(比如 个单位),对应的估计的机会比率是
一般来说,机会比率使我们能够比较两个不同事件的机会比,如果机会比率的值是 ,那么两个事件的机会比是相同的。如果自变量对事件发生的概率有一个正的影响,那么对应的机会比率将大于 。
3.5 对数机会比(logit)变换
有利于 的机会比的自然对数是自变量的线性函数
这个线性函数称为对数机会比(logit),用符号 表示对数机会比:
4. 建立模型
4.1 确定什么时候增加或者删除变量
考虑以下含有 个自变量的多元回归模型:
如果增加自变量 到这个模型上,得到含有 个自变量的多元回归模型
为了检验增加的自变量 是否在统计上是显著的,提出如下原假设和备择假设:
计算检验统计量
简化形式
拒绝法则
值法:如果 值,则拒绝
临界值法:如果 ,则拒绝
其中, 为分子自由度 ,分母自由为 时,使 分布上侧的面积为 时对应的 值。
4.2 变量选择方法
4.2.1 逐步回归法
逐步回归方法的每一步,首先要考虑的是查看一下是否有哪个自变量能从当前的模型中被删除,如果没有一个变量能从模型中被删除,则查看是否有哪个不在当前模型中的自变量能增加到模型里来。判断的标准即是 检验。停止条件为没有自变量能从模型中被删除且没有自变量能进入到模型里来。
4.2.2 前向选择法
前向选择方法从模型中没有自变量开始,使用与逐步回归方法为了确定一个变量是否应该进入模型同样的程序来增加变量,并且每次只能增加一个变量。需要注意的是,一个变量一旦加入到模型中,前向选择方法就不允许这个变量从模型中删除。停止条件为当不在模型中每一个自变量的 -值全都大于 (即显著性水平阈值)。
4.2.3 后向消元法
后向消元法从包含所有自变量的模型开始,使用与逐步回归方法为了确定一个变量是否应该从模型中删除同样的程序来删除变量,并且每次只能删除一个变量。需要注意的是,一个变量一旦从模型中删除,后向消元法就不允许这个变量重新再进入模型。停止条件为当模型中自变量的 -值没有一个大于 (即显著性水平阈值)。
注:前向选择法和后向消元法可能得出不同的模型。
4.2.4 最佳子集回归法
暂略
4.3 试验设计的多元回归方法
4.3.1 完全随机化实验
包含 四种处理的一个完全随机化设计,可以考虑如下的多元回归方程:
处理 | |||
---|---|---|---|
0 | 0 | 0 | 处理 A |
1 | 0 | 0 | 处理 B |
0 | 1 | 0 | 处理 C |
0 | 0 | 1 | 处理 D |
4.3.2 析因实验
因素 有 水平,因素 有 水平的两因素设计,可以考虑如下的多元回归方程:
因素 :如果水平 ,则 ;如果水平 ,则 ,因素 :
水平 | ||
---|---|---|
0 | 0 | 1 |
1 | 0 | 2 |
0 | 1 | 3 |
4.4 自相关性和杜宾-瓦特森检验
- 自相关性
当模型误差项在连续时间点上相关时,在误差项中出现的相关性。
如果 在 时期的值依赖于 在 时期的值,则称数据中存在一阶自相关性;如果 在 时期的值依赖于 在 时期的值,则称数据中存在二阶自相关性,等等。
回归模型的假定之一是模型的误差项是独立的,当数据存在自相关性时,违背了这一假定。因此,检测出自相关性的存在并作出适当的修正十分重要。
杜宾-瓦特森检验 (Durbin-Watson test) 的检验统计量
其中,,表示第 个残差。
- 修正措施
如果显著的自相关性被识别出来,应考虑假设的回归模型是否遗漏了一个或几个重要的自变量,而这些自变量对应变量有显著的时序影响。如果没有这样的自变量被识别出来,则可以在模型中引入一个度量观测次数的自变量(例如,对于第一次观测,这个变量的值可以为 ,对于第二次观测,这个变量的值可以为 ,等等)。当这些尝试不起作用时,再考虑对应变量或者自变量进行适当的变换可能是有帮助的。