大师兄的应用回归分析学习笔记(二十九):含定性变量的回归模型(二)
一、自变量含定性变量的回归模型
- 对于一些自变量是定性变量的情形先进行量化处理,方法是引进只取0和1两个值的虚拟自变量将定性变量数量化。
- 当某一属性出现时,虚拟变量取1,否则取0,
- 虚拟变量也称为哑变量。
1. 简单情况
- 首先讨论定性变量只取两类可能值的情况,例如研究粮食产量问题,y为粮食产量,x为施肥量,另外再考虑气候问题,分为正常年份和干旱年份两种情况。
- 对这个问题的数量化方法是引入一个0 - 1 型变量D,令:
表示正常年份
表示干旱年份
- 粮食产量的回归模型为:
,式子中:
- 干旱年份的粮食平均产量为:
![]()
- 正常年份的粮食平均产量为:
![]()
- 这里的前提条件是,认为干旱年份与正常年份回归直线的斜率
是相等的,也就是不论是干旱年份还是正常年份,施肥量x每增加一个单位,粮食产量
平均都增加相同的数量
。
- 对参数的估计仍采用最小二乘法。
2. 案例
-
某经济学家像调查文化程度对家庭储蓄的影响,在一个中等收入的样本中,随机调查了13户高学历家庭与14户低学历家庭。
- 因变量y为上一年家庭储蓄增加额
- 自变量
为上一年家庭总收入
- 自变量
为家庭学历,高学历家庭
,低学历家庭
![]()
-
计算出的残差值:
-
输出结果:
- 两个自变量
都是显著的
- 复决定系数
![]()
- 回归方程为:
![]()
- 结果表明:
- 低学历家庭每增加1万元收入,平均拿出3825.92元作为储蓄
- 高学历家庭每年的平均储蓄增加额少于低学历家庭,平均少3698.163元。
- 如果不引入家庭学历定性变量
:
,说明拟合效果不好
2. 复杂情况
- 在某些场合下,定性变量可能取多类值,比如季节因素分为春、夏、秋、冬四种情况。
- 初步设想引入四个0-1型的自变量:
- 春季
,其他
![]()
- 夏季
,其他
![]()
- 秋季
,其他
![]()
- 冬季
,其他
![]()
- 可是这样做会产生一个新问题,即四个自变量之和恒等于1,即
,构成完全多重共线性。
- 解决这个问题的方法是去掉一个0-1型变量,保留三个变量即可。
- 一般情况下,当一个定性变量有k类可能得取值时,需要引入k-1个0-1型自变量即可。



