因为2018年的子女最高学历变量有很多缺失值,查看了问卷之后发现是因为又出现了预先储存好的变量,很大可能是因为上一次调查中已经记录了该变量的内容,所以就到2015年的数据中去找,确实2015年中的缺失值只有很少一部分,于是对最高学历这个变量进行处理,删除了所有孩子的最高学历都小于7的样本,剩下了4204个样本。
没有删除子女最高学历缺失值的情况下跑基本回归:
然后试了试把最高学历为中专的设为1,其余设为0,不显著。然后把缺失值也设为0,直接不出结果了。
然后试了试把最高学历小于7的删掉,再把最高学历大于7的设为0(保留缺失值):
然后再把最高学历为中专的设为1,再跑了一遍模型,发现没有变化:
下次可以先试试其他几个孩子,不过大概率也不行。还可以通过叠加14年、15年的数据来增加样本量,切记叠加之前要先给现在的数据加时间变量。