大师兄的应用回归分析学习笔记(二十八):含定性变量的回归模型(一)

大师兄的应用回归分析学习笔记(二十九):含定性变量的回归模型(二)

大师兄的应用回归分析学习笔记(二十七):非线性回归(三)

一、自变量含定性变量的回归模型

  • 对于一些自变量是定性变量的情形先进行量化处理,方法是引进只取0和1两个值的虚拟自变量将定性变量数量化。
  • 当某一属性出现时,虚拟变量取1,否则取0,
  • 虚拟变量也称为哑变量。
1. 简单情况
  • 首先讨论定性变量只取两类可能值的情况,例如研究粮食产量问题,y为粮食产量,x为施肥量,另外再考虑气候问题,分为正常年份和干旱年份两种情况。
  • 对这个问题的数量化方法是引入一个0 - 1 型变量D,令:
  • D_i=1 表示正常年份
  • D_i=0 表示干旱年份
  • 粮食产量的回归模型为:y_i = \beta_0 + \beta_1x_i+\beta_2D_i+\epsilon_i,式子中:
  • 干旱年份的粮食平均产量为:E(y_i|D_i=0)=\beta_0+\beta_1x_i
  • 正常年份的粮食平均产量为:E(y_i|D_i=1)=(\beta_0+\beta_2)+\beta_1x_i
  • 这里的前提条件是,认为干旱年份与正常年份回归直线的斜率\beta_i是相等的,也就是不论是干旱年份还是正常年份,施肥量x每增加一个单位,粮食产量y平均都增加相同的数量\beta
  • 对参数的估计仍采用最小二乘法。
2. 案例
  • 某经济学家像调查文化程度对家庭储蓄的影响,在一个中等收入的样本中,随机调查了13户高学历家庭与14户低学历家庭。


  • 因变量y为上一年家庭储蓄增加额
  • 自变量x为上一年家庭总收入
  • 自变量x_2为家庭学历,高学历家庭x_2=1,低学历家庭x_2=0
  • 计算出的残差值:


  • 输出结果:


  • 两个自变量x_1和x_2都是显著的
  • 复决定系数R^2 = 0.879
  • 回归方程为:\hat y = -7976.098 + 3825.92x_1 -3698.163x_2
  • 结果表明:
  • 低学历家庭每增加1万元收入,平均拿出3825.92元作为储蓄
  • 高学历家庭每年的平均储蓄增加额少于低学历家庭,平均少3698.163元。
  • 如果不引入家庭学历定性变量x_2
  • R_2=0.618,说明拟合效果不好
2. 复杂情况
  • 在某些场合下,定性变量可能取多类值,比如季节因素分为春、夏、秋、冬四种情况。
  • 初步设想引入四个0-1型的自变量:
  • 春季x_1=1,其他x_1=0
  • 夏季x_2=1,其他x_2=0
  • 秋季x_3=1,其他x_3=0
  • 冬季x_4=1,其他x_4=0
  • 可是这样做会产生一个新问题,即四个自变量之和恒等于1,即x_1+x_2+x_3+x_4=1,构成完全多重共线性。
  • 解决这个问题的方法是去掉一个0-1型变量,保留三个变量即可。
  • 一般情况下,当一个定性变量有k类可能得取值时,需要引入k-1个0-1型自变量即可。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容