关于AIC准则

AIC准则提出背景

  • 计量经济学
  1. 研究对象:量化的社会经济问题
  2. 研究目的:利用已有信息,通过模型发现内在机理,并对未知信息作出统计推断
  3. 核心问题:保证模型反映数据所代表的主要信息,降低噪声干扰项的影响,保证模型的预测准确性
  4. 模型包含的信息量能否尽可能大?不能。一是干扰信息无法避免;二是若模型包含了全部信息,则模型的复杂度也会相应提高,相应地会提高经济学成本;三是人无法对模型的准确性做出客观而科学的评断。
  • 信息论
  1. 信息熵:信源发出的信息中包含的不确定性大小
    H(u) = E(I(a_i)) = - \sum_{i=1} ^n p(a_i) \mathrm{log} p(a_i)
  2. 最大熵:衡量通信信息有效性和可靠性的概念,当信息过少时,信息传递的有效性、可靠性降低,当信息过多时,信息传递的经济性降低。类似地,在模型识别中需要在拟合效果和参数个数之间达到均衡。
  3. K-L距离/K-L信息量:表示真实概率分布和估计分布的差异,K-L信息量越小,估计的概率分布蕴含的信息越能反映真实分布。它是对传统似然估计、最小二乘估计思路的拓展,这两种估计仅从样本信息出发,要求模型最佳地拟合样本数据,而忽略了总体信息,所以还必须对样本施加额外的要求。

P(x)表示定义在事件空间上的概率,当用Q(x)进行编码时,定义K-L距离为:D(P||Q) = \int \mathrm{ln} \frac{P(x)}{Q(x)} dx = \sum_{x \in \Omega} P(x) \mathrm{ln} \frac{P(x)}{Q(x)} \\\\ = E(\mathrm{ln} \frac{P(x)}{Q(x)} )

常见模型识别方法

对于时间序列模型滞后阶数和模型选择问题,AIC准则之外常见的有假设检验、极大似然函数、C_p统计量法。这些法则的共同点在于:从残差控制或样本信息反映总体信息大小角度评价,充分考虑每个样本,主要提高模型有效性,忽略模型可靠性。此外每种方法还各自存在不足:

  1. 假设检验:
  • 需要主观确定显著性水平
  • 存在不对称性:
    a 证实和证伪不对称:从逻辑学上说,没有可以得到彻底证实的东西,而证伪只需要一次足够强的证据即可;
    b 犯第一类错误和第二类错误不对称性:从统计学上说,假设检验中一般只控制犯第一类错误的概率,导致犯第一类错误的概率较小,而犯第二类错误的概率可能较大;
    c 经济意义和统计意义不对称性:从经济学上说,假设检验是基于数据的统计学方法,统计显著的结果在实际中可能不显著。
  1. 极大似然估计
  • 前提:需要假定随机样本服从某个概率分布,未知参数的值应当使得样本的似然函数值达到最大。
  • 特点:在利用样本反映总体信息上达到最优,模型的可靠性很高
  • 不足:模型的有效性较低,当参数个数增加时,极大似然估计可以无限接近总体情况。
  1. C_p统计量
    通过对模型预测误差进行控制,并用总体方差进行调整。
    C_p = \frac{SSE_p}{\hat{\sigma}^2} - n + 2p
    主要存在的问题在于总体方差较难估计。
  2. 最终预报误差
  • 优点:通过对预测误差的控制实现模型选择,而非从样本信息反映总体信息程度角度。
  • 理解:最终预报误差是损失函数的一种测度,损失函数越小,表明样本信息提取的越充分,模型用于预测的效果越好。
  • 公式:对于AR(n)模型,最终预报误差为:FPE(n) = \frac{N+n}{N-n}(\gamma(0) - \sum_{i=1}^n \hat{\phi}_i \gamma _i)

一般模型拟合阶数最高不会超过样本量的\frac2 3

AIC准则及其改进

AIC准则

AIC = -2l(\hat{\theta}) + 2k

  • AIC准则的第一部分是极大似然函数的对数,是从样本信息对总体信息的反映程度即模型拟合情况考虑的;第二部分是对第一部分的惩罚,达到满足模型有效性和可靠性条件下参数个数最少。
  • AIC准则突破了以往仅从模型拟合情况的评价标准,其出发点是最小化信息论中的K-L距离(相对熵),需要同时满足有效性、可靠性和经济性。AIC值越小,估计概率分布越接近真实分布。
  • 大样本条件下,AIC准则中第二部分的惩罚较小,第一项起主导作用,最优模型不收敛于真实情况。

从FPC准则到AIC准则的改进表示了从预测因变量到预测因变量分布的本质变化。

AIC准则的改进

BIC/SBC准则(贝叶斯信息准则)

BIC = -2l(\hat{\theta}) + k \mathrm{ln} n

  • BIC准则第二项中引入后验概率后验概率 \propto 先验概率 \times 似然值(样本信息)将样本量个数作为模型优化的因素,考虑了样本量对真实模型估计的影响,在大样本条件下估计效果更好。
  • 小样本情况下AIC准则第二项约束更强,大样本条件下BIC准则第二项约束更强。一般当样本量大于35时使用BIC准则。

AIC准则应用

  1. 模型定阶和模型选择
  2. 独立性检验
    列联表独立性检验中,对数似然函数为l = \sum_i \sum_j n(i,j) \mathrm{ln} p(i,j)当对模型没有限制时,取p(i,j) = n(i,j)/N可得最大似然函数值,且参数p(i,j)中可自由取值的个数为rc-1,此时AIC信息量为AIC_1=(-2)\sum_i \sum_j n(i,j) \mathrm{ln} \frac{n(i,j)}{N}+2\cdot (rc - 1)当对模型有独立性限制时,p(i,j) = p(i, \cdot) p(\cdot,j), \sum_{i}p(i,\cdot) = 1,\sum_{j} p(\cdot, j) = 1因此可自由取值的参数个数为(r-1)(c-1),且取p(i,j) = \frac{N(i,\cdot)}{N}\cdot \frac{N(\cdot,j)}{N}时似然函数值达到最大,相应地可以计算出AIC_2
    AIC_2 <AIC_1则应当采用有独立性约束模型。
    相比\chi^2独立性检验,AIC准则不需要主观决定显著性水平的值,因此AIC准则可以用于统计分析自动化。
  3. 方差分析
    主要考虑方差分析模型中交互效应显著性问题。
    AIC = N\mathrm{ln} (残差平方和) + 2(自由度)
  4. 因子分析模型
    利用AIC准则确定公共因子的个数,使得公共因子既能解释原始变量较多的信息,又不会因为公共因子过多而造成解释信息冗余、增加解释既有因子的复杂度,同时减少了根据贡献率选择公共因子个数时的主观性作用。
    AIC = -2 \mathrm{ln} (l(\theta)) + 2(参数个数)其中,\mathrm{ln} (l(\theta))= -\frac1 2 N[\mathrm{ln} |\Sigma_k| + tr(\Sigma_k^{-1}S)] S = \frac1 N \sum (y_i - \bar {y})(y_i-\bar{y})' \Sigma_k = A_KA_K' + D_k

参考文献:
[1] 李子奈.计量经济学模型方法论的若干问题[J].经济动态,2007(10):22-30.
[2] 陈晓峰.AIC准则及其在计量经济学中的应用研究[D].天津:天津财经大学,2012.
[3] 刘璋温.赤池信息量准则 AIC 及其意义[J].数学的实践与认识,1980(03):64-72.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,172评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,346评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,788评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,299评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,409评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,467评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,476评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,262评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,699评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,994评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,167评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,499评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,149评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,387评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,028评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,055评论 2 352

推荐阅读更多精彩内容