本期解答人:Jie Xie
问:想请问下,数据的控制变量不显著的话,用什么办法能调整呢?自变量因变量显著,R方很低,0.1,我用的是混合OLS,应该是面板数据,是不同公司在不同年份的业绩表现的数据。使用的公式是reg robust,用XTSET YEAR 显示数据是非平衡面板,也用不了豪斯曼检验。
答:模型中控制变量如果比较多,可能是因为共线性,其中包括控制变量与控制变量之间的共线性、控制变量与自变量之间的相关性。建模者需要选用逐步回归筛选一下。不显著是因为t值较小,即t=b/s,s标准差较大,OLS估计的性质中的有效性差,即方差大,标准误差大。当然,原因不仅仅局限于共线性,自相关与异方差的存在都会使有效性得不到满足(方差不是最小的)。因此,只要克服了经典OLS回归中的基本假设不满足状况,就可以提高控制变量显著性。具体可使用广义差分法、广义最小二乘法(GLS)等方法来克服相关性;使用加强最小二乘法(WLS)、GLS等方法来克服异方差;使用逐步回归来克服共线性。
问:(1)李春涛老师带领的爬虫俱乐部编写了chinagcode命令,可以根据中文地址得到经纬度,这一经纬度返回的是百度坐标系(BD-09)下得到的经纬度,想请问一下这一经纬度如何在stata中转变为世界标准经纬度坐标系(WGS-84)下的经纬度?备注:我在网上找到了Python、R或者ArcGIS对应的code或package可以完成坐标转换,但是因为不想跨平台分析数据,所以想请问可否在stata中直接完成转换。
(2)stata中是否有做非线性两阶段最小二乘法(NL2SLS)的回归命令?R也可以。备注:stata中有非线性回归的nl命令,也有做2sls的ivregress的命令,有没有结合两者用GMM方法来估计nonlinear 2sls参数的命令?
答:(1)方法有两种:如果使用百度地图,则需要通过ArcGIS或Python转,然后提取经纬度,再将其转换保存为stata格式,可参考https://www.jianshu.com/p/6e69737cffaa;第二,使用英文地址、并ssc install geocode,将Google Maps和Stata联合起来,通过geocode将地理位置转化为相应的经纬度。可参考相关内容:geocode 获取经纬度(http://blog.sina.com.cn/s/blog_629bb75801012how.html);中文地址如何提取经纬度?http://blog.sina.cn/dpool/blog/s/blog_624078b50102wf20.html?from=groupmessage
(2)目前stata软件没有将两者结合在一起的官方文件包,也没有谁开发百度地图直接转的stata代码或程序包。另外,WGS-84是椭球,不是平面,使用stata做这个的目的是什么?画规范地图推荐ArcGIS,做数据跑回归推荐stata。
问:老师,您好!在stata中判断数值是否符合正态分布,峰度和偏度最好是不超过多少,百度百科上说正太分布峰度为3,偏度为0,那如果偏离这两个数,会不会对结果有很大影响。请老师帮我判断下面的偏度和峰度值对回归结果会有很大影响吗?
问:回归结果中系数的显著性主要是是根据z统计量或t统计量来判断得。每个系数服从不同的正态分布,不便比较,所以都转换为标准正态分布再检验,此时是z统计量判断。如果是小样本,再转换为t分布,根据t统计量判断。数据的分布是基于正态分布假设的。在不满足的正态分布的情况还有截断正态分布等。