参考资料:https://www.jianshu.com/p/15646e157fbd
https://zhuanlan.zhihu.com/p/27100034
第一次做离散选择模型的实证研究,感觉有必要对一些基础概念和处理方法进行梳理。
因为已经很熟悉离散选择模型的数学原理了,在这里先跳过。等完成论文后再进行梳理(嘻嘻)
1. 基础概念
一些可能会在写论文时用得上的词汇
(1)定义
离散选择模型描述了决策者在不同的Alternative中做作出的选择
(1)决策者(Decision Maker),即做出选择行为的主体;具有个体异质性
(2)选择集(Alternatives):所有可供选择项目的加总 被解释变量
(3)各个方案的属性(Attributes of Alternatives):不同的方案属性描述了各个方案在不同的维度上可以提供给人们的效用(Utility)解释变量
(4)决策准则(Decision Rules)。不同的决策者在做出方案选择时的行为准则不尽然相同。仍然以上面“选择餐厅”的例子予以说明:有人在选择餐厅时可能会比较的“随意”——随便挑一家即可;而有的人可能会综合利用各种信息资源(如“大众点评”App)做出一个对自己最为有利的选择。不一样的决策准则会导致不同的选择结果。
(2)Odd
Odds指的是事件发生的概率与事件不发生的概率之比。事件A的Odds 等于 事件A出现的次数 和 其它(非A)事件出现的次数 之比;相比之下,事件A的概率 等于 事件A出现的次数 与 所有事件的次数 之比。Odds的对数称之为Logit。
这个讲得挺浅显易懂的:
(2)
2. 数据准备
就是数据搜集完成,在跑模型之前,要怎么处理变量,能够使模型回归结果更可靠的工作
(1)样本量
a. 没有统一标准
b.但如果样本量小于100,logistic回归的最大似然估计可能有一定的风险,如果大于500则显得比较充足。
c. 一般认为,每一个自变量至少要10例结局保证估计的可靠性。注意:这里是结局例数,而不是整个样本例数。(如果你有7个自变量,那至少需要70例研究结局,否则哪怕你有1000例,而结局的例数只有10例,依然显得不足。)
我有150个样本>>在没有完全重复问卷的情况下最多只能15个自变量
(2)自变量赋值
疑问:分类、连续or dummy?哪一个更好呢?
解答:相同自变量以不同形式进入MNL模型,所表达的含义不同。我的理解,dummy = 分类变量 > 连续变量
例如体重,如果直接进行分析,结果提示的是每增加1Kg发生某病的危险。而现实中多数疾病可能对体重增加1Kg不敏感,或者我们医务人员不关心增加1Kg所发生的变化,而关注的是胖子是不是比瘦子有更高的发病风险。
至于哑变量和分类变量,则要视变量所想解释的经济学含义而定。
例如研究收入对出发时间的影响(如出发时间越早,收入越低),则用分类变量(设置不同时间段,标为1,2,3,4)比较好;
自变量和logit如果不是线性关系,最好不要设置成分类变量,转换成dummy再进入模型。
如果取值结果与预期相反,注意看看是不是因变量赋值,大小顺序颠倒
(3)混杂因素(没看懂)
混杂因素一般可以通过三个方面确定:
一是该因素(吸烟)对结局(心绞痛)有影响;
二是该因素(吸烟)在分析因素(基因)中的分布不均衡;
三是从专业角度来判断,即该因素不能是分析因素与结局中间的一个环节。也就是说,不能是分析因素引起该因素,通过该因素再引起结局。
(4)交互作用
交互作用有的书中也叫效应修饰,是指在该因素的不同水平(不同取值),分析因素与结局的的关联大小有所不同。在某一水平上(如取值为0)可能分析因素对结局的效应大,而在另一个水平上(如取值为1)可能效应小。
我的理解:以受教育水平为例,文盲的取值为0,大专以下文凭为1。在一般问卷中不会涉及文盲这个选项,所以这时分类序数变量应从1开始。
(5)变量相关性
LR 中特征强相关,不会影响最优性,但会造成权重的数值解不稳定。
(6)内生性问题
可以参考文献
二值选择模型内生性检验方法_步骤及Stata应用 袁微