Chapter 3 计量经济学导读(Econometrics, a guided tour)
数据收集
· 能够运用到计量经济模型中去的经济数据来源很多,主要有以下三种:
横截面数据(cross-section data)
通常是关于n个个体(广义上理解,可以是企业或国家之类的实体单位)的观测值。重复观测的横截面数据(repeated cross-section data)
即随时间变化而观测到的各个个体行为。若时间序列所涉及到的都是同一横截面的个体,则所得到的数据称为面板数据(panel data)。考虑使用面板数据的主要原因是,时间序列中的各个不同个体具有共同的性质,没有必要考察几个独立的回归模型。缩并的面板数据(condensed panel data)
该类型的数据涉及的个体数目只有一个或者由n个个体求平均后缩并而成的单一的变量,前者如腾讯公司每日股票收益率(时间序列数据),后者如港交所股票平均收益率。
· 一般而言,如果观测数据都十分可靠,数据越多,得到的结果就可能越准确。然而,更多的数据也意味着更加宏大的模型,模型会变得更加复杂,相应的参数估计量也会变得更加困难(more involved)。
· 对于数据收集,有一点可以肯定,如果能够收集到非汇总数据(disaggregated data),则应首先考虑采集此种数据,原因很简单,非汇总数据可以汇总为汇总数据(aggregated data),而反之,则通常不可为。
· 数据中存在的问题有很多种,最为常见的情况是缺失数据(missing data)以及收集到的数据可能非随机(collected data are not random)。缺失数据可能是①遗漏了相关变量的一些观测值②遗漏变量(omitted variables)。对于遗漏变量,弥补的方法之一是把这些所谓的不可观测异质性(unobserved heterogeneity)转变为一些变化的参数(varying parameters)。
·关于数据的“终极三问”:在进行数据分析时,应该弄清楚如下问题:“数据是从哪里得来的?”“这些数据又是如何收集的?”“是否存在并非所有相关数据都可以得到,因而样本并不是随机的可能性?”只有能确信这些问题都不存在,才能进一步地利用适当的模型继续研究,否则就应该首先收集更多或更好的数据,或根据实际情况修正估计量。(评:私以为很多情况下数据的获取难度是非常大的,可能对于普通的研究人员来说,根据情况修正估计量才是现实的选择。)
模型选择
· 选择一个适当的计量经济模型主要取决于被解释变量yi的性质,而与解释变量xi的关联性相对要小一些。
实证分析(Empirical analysis)
· 参数估计方法
OLS(ordinary least squares)、广义最小二乘法(generalized least squares)、非线性最小二乘法(nonlinear least squares)
最大似然法(ML, Maximum Likelihood)
贝叶斯方法(Bayesian method)
· 自由度(degrees of freedom):等于样本观测数据个数与需要估计的未知参数个数之差。如果没有不确定性情况存在,自由度就为零。拥有较多的自由度可以使我们所作出的结论更有可信度,而没有自由度则使数据得到完全拟合。尽可能多地拥有自由度,也就是说尽量使模型包含的变量不太多,因而不必估计太多的参数。
· 杜宾-瓦尔森检验(Dubin-Watson test),曾是最早出现的检验方法之一,标志着检验计量经济模型时代的开始,但现在看来,该检验只有在极其特殊的情形下方能有用。
· 模型和数据拟合的度量通常可以用判定系数(coeffcient of determination)或R^2(R-squared)来表示。值总是居于0和1之间,值为1时表示拟合的相当好,为0时表示拟合的很差。