一、关于回归分析
- 回归(regression)命名起源:英国统计学家F.Galton(1822-1911)和他学生,现代统计学的奠基者K.Pearson(1856-1936)共同研究父母身高与子女身高的遗传问题。
1. 变量间的统计关系
-
函数关系:如果一个变量的变化能完全决定另一个变量的变化,即两个变量间完全表现为一种确定关系。
- 统计关系:也称为相关关系,指的是变量间具有密切关联而又不能由某一个或牟一些变量唯一确定另外一个变量的关系。
- 统计关系形成两个重要分支,即回归分析和相关关系。
回归分析 | 相关分析 |
---|---|
变量y称为因变量,处在被解释的特殊地位。 | 变量y与变量x处于平等地位。 |
因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量 | 变量y与变量x全是随机变量。 |
不仅可以揭示变量x对变量y的影响大小,还可以由回归放成进行预测和控制。 | 主要为了刻画两类变量间线性相关的密切程度。 |
2. 回归方程
当给定x的值,y的值不能确定,只能通过一定的概率分部描述,给定x时用的条件数学期望为
。
-
x为自变量(independent variable),y为因变量(dependent variable),如果要由x预测y,就要利用x,y的观测值,即样本观测值
来建立一个函数。
可以考虑用一个线性函数来描述:
其中参数(parameter)
和
未知,估计参数是计量经济学的首要任务。
估计出
和
的值后,以估计值
和
分别代替
和
,得方程:
,由于因变量y与自变量x呈线性关系,故称为y对x的线性回归方程。
根据是否依赖于观察或实验积累的数据式:
- 经验回归方程
:
为回归常数,
为经验系数。
- 理论回归方程
,设想把所有研究问题的总体中每一个体的(x,y)值都测量,利用其全部结果而建立的回归方程,实际中做不到。
为回归常数,
为回归系数。
二、回归分析的主要内容及其一般模型
1. 回归分析研究的主要内容
- 回归分析研究的主要对象是客观事物变量间的统计关系,是建立在对客观事物进行大量实验和观察的基础上,用来寻找隐藏在那些看上去是不确定的现象中的统计规律性的统计方法。
- 回归分析方法是通过建立统计模型研究变量间相互关系的密切程度、结构状态及进行模型预测的一种有效工具。
- 如果按研究方法来划分,回归分析研究的范围大致如下:
一级 | 二级 |
---|---|
线性回归 | 一元线性回归 多元线性回归 多个因变量与多个自变量的回归 |
回归诊断 | 讨论如何从数据推断回归模型基本假设的合理性 当基本假设不成立时如何对数据进行修正 判定回归方程拟合的效果 选择回归函数的形式 |
回归变量的选择 | 自变量选择的准则 逐步回归分析方法 |
参数估计方法的改进 | 岭回归 主成分回归 偏最小二乘法 |
非线性回归 | 一元非线性回归 分段回归 多元非线性回归 |
含有定性变量的回归 | 自变量含定性变量的情况 因变量是定性变量的情况 |
2. 回归模型的一般形式
- 随机变量
与相关变量
的概率模型为:
- 其中随机变量y称为被解释变量(因变量,内生变量)。
称为解释变量(自变量,外生变量)。
为一般变量
的确定性关系。
为随机误差
- 因为有
的引入,所以将变量之间的关系描述成为一个随机方程,随机误差项主要包括下列因素:
- 由于人认识的局限或时间、费用、数据质量等的制约未引入回归模型但又对回归被解释变量y有影响的因素。
- 样本数据的采集过程中变脸观测值的观测误差。
- 理论模型设定的误差。
- 其他随机因素。
- 概率模型式由两部分组成(确定性函数关系和随机误差项),准确地表达了相关关系既有联系又不确定的特点:
为未知参数,常称为回归系数。
- 线性回归模型的线性是针对未知参数而言的,回归解释变量的线性是非本质的,因为解释变量是非线性的时,常可以通过变量的替换把它转化为线性的。
- 如果
是变量
的一组观测值,则线性回归模型可表示为:
。
- 为了估计模型参数,古典线性回归模型通常应满足以下几个基本假设:
- 解释变量
是非随机变量,观测值
是常数。
- 等方差及不相关的假定条件为高斯-马尔科夫(Gauss-Markov,G-M)条件:
,在此条件下,可以得到关于回归系数的最小二乘估计及误差项方差
估计的一些重要性质,如回归系数的最小二乘估计是回归系数的最小方差线性无偏估计等。
- 正态分布的假定条件为:
,在此条件下可得到关于回归系数的最小二乘估计
的最小方差无偏估计等,并且可以进行回归的显著性检验及区间估计。
- 通常为了便于数学上的处理,还要n>p, 即样本量的个数要多于解释变量的个数。
- 在整个回归分析中,线性回归的统计模型最为重要:
- 一方面因为线性回归的应用最广泛。
- 另一方面是只有在回归模型为线性的假定下,才能得到比较深入和一般的结果。
- 此外,许多非线性的回归模型可以通过适当的变换转化为线性回归问题处理。
- 对线性回归模型通常要研究的问题有:
- 如何根据样本
求出
及方差
的估计。
- 对回归方程及回归系数的种种假设进行检验。
- 如何根据回归方程进行预测和控制,以及如何进行实际问题的结构分析。
三、建立实际问题回归模型的过程
1. 根据研究的目的设置指标变量
- 回归分析模型主要是揭示事物间相关变量的数量联系,首先要根据所研究问题的目的设置因变量y,然后在选取与y有统计关系的一些变量作为自变量。
- 通常因变量与自变量之间应具有因果关系。
- 对于一个具体问题,当研究目的确定之后,被解释变量就容易确定下来,被解释变量一般直接表达研究的目的。
- 确定解释变量通常较难:
- 一是由于认知有限,不知道被解释变量有重要影响的因素。
- 二是为了保证模型参数估计的有效性,设置的解释变量应该是不相关的,但经济问题中很难找到影响同一结果的相互独立的因素。
- 三是从经济关系角度考虑,非常重要的变量应该引进,但实际中并没有这样的统计数据。可以考虑用相近的变量代替,或者由其他几个指标复合成一个新的指标。
- 回归模型所涉及的解释变量不是越多越好,无关变量或相关性太强的变量会产生共线性问题,降低模型精度。
-
回归变量确认时建立回归模型的最近本工作,一般并不能一次完全确定,通常要经过反复试算,最终找出最适合的一些变量。
2. 收集、整理统计数据
- 样本数据的质量如何对回归模型的水平有至关重要的影响。
- 常用的样本数据分为时间序列和横截面数据。
- 时间序列数据是按时间顺序排列的统计数据:
- 对于收集到的时间序列资料,要特别注意数据的可比性和数据的统计口径问题,对于没有可比性和统计口径不一致的统计数据要做调整,这个过程也叫数据过程整理。
- 时间序列数据容易产生模型中随机误差项的序列相关。
- 横截面数据是在同一时间截面上的统计数据:
- 横截面数据做样本时,容易产生异方差性。
3. 确定理论回归模型的数学形式
- 绘样本散点图是选择数学模型形式的重要一环:
- 如果n个样本大致分布在一条直线的周围,可以考虑用线性回归模型拟合直线,即线性回归模型。
- 如果n个样本大致分布在一条曲线的周围,可选择指数形式的理论回归模型去描述。
- 经济回归模型的建立通常要依据经济理论和数理经济学的结果,数理经济学中已经对投资函数、生产函数、需求函数给出了严格的定义,并把他们用公式表达出来,在这些公式中增加随机误差项,就可以把问题转化为随机数学工具处理的回归模型。
4. 估计模型参数
- 未知参数的估计方法中最常用的是普通最小二乘法。
- 对于不满足模型基本假设的回归问题,也可以使用岭回归、主成分回归、偏最小二乘估计等,但他们都是以普通最小二乘法为基础。
- 除此之外,回归分析还有分位数参数估计、贝叶斯参数估计等方法。
5. 模型检验与修改
- 回归模型一般需要进行统计检验和模型经济意义的检验。
- 统计检验通常包括:
- 回归方程的显著性检验
- 回归系数的显著性检验
- 拟合优度的检验
- 随机误差项的序列相关检验
- 异方差性检验
- 解释变量的多重共线性检验等
6. 回归模型的应用
- 应用回归模型可以对经济变量之间的关系做出度量,从模型的回归系数可发现经济变量的结构关系,给出量化依据。
- 可以根据给定被解释变量值来控制解释变量值。
- 可以通过回归模型对经济进行预测。
- 在回归模型的应用中,应强调定性分析和定量分析的有机结合。