Choosing the Correct Type of Regression Analysis - Statistics By Jim
针对不同的变量类型选择
一、连续因变量
1)线性回归(也叫ordinary least squares,OLS)
最常用的回归模型,趋势表示mean值变化。虽然叫线性回归,但不仅是直线,也可以用多项式模拟曲率。
通过最小化SSE(sum of squared errors)来估计参数。SSE=(c1-mi)^2 + (c2-mi)^2 + ... + (ci-mi)^2 各个值与总体均值的差的平方和
自动评估备选变量的方法:stepwise regression和best subsets regression(Guide to Stepwise Regression and Best Subsets Regression - Statistics By Jim)
由于线性回归对离群值和多重共线性(解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确)的敏感性,易过度拟合,因此有几个改进的线性回归:
(1)Ridge regression:存在严重多重共线性时,也能分析数据,防止过拟合。模型思想是在估计中引入轻微偏差,减少了多重共线性引起的大的偏差。
(2)Lasso regression:选择变量。识别更简单的模型,达到更准确的模型。思想类似Ridge但有变量选择。
(3)Partial least squares:当样本数较少(与自变量数量相比,例如样本数为3,时间点有5个)或自变量高度相关时,PLS减少自变量到互不相关。使用范围很广,效果很好,思想尚未了解。
2)非线性回归模型
比线性回归灵活性高
也是最小化SSE,但非线性模型使用迭代算法,而不是直接矩阵方程求解。因此需要考虑使用哪种方法、指定起始值、以及不收敛于解或收敛于局部最小值而不是全局最小值的可能性。
一般建议是先试试线性拟合,检查residue plot,是否拟合的好,结果不好再试非线性回归。
几个比较线性、非线性的帖子
- What is the Difference Between Linear and Nonlinear Models?(https://statisticsbyjim.com/regression/difference-between-linear-nonlinear-regression-models/)
- How to Choose Between Linear and Nonlinear Regression?(https://statisticsbyjim.com/regression/choose-linear-nonlinear-regression/)
- Curve Fitting with Linear and Nonlinear Regression(https://statisticsbyjim.com/regression/curve-fitting-linear-nonlinear-regression/)
二、分类因变量回归分析
因变量是类别,而不是连续值。
逻辑回归对因变量进行变换处理,然后用最大似然估计。
逻辑回归
逻辑回归描述一组连续的自变量和对应的分类因变量之间的关系,根据因变量的分类类别选择适合的逻辑模型。
(1)Binary logistic regression(二元逻辑回归):自变量变换与事件发生概率的变化的关系。因变量是二进制的值,0和1。
例如政治学家根据股市表现评估现任美国总统赢得连任的几率。
(2)Ordinal logistic regression(顺序逻辑回归):一组预测因子和一组有序反应变量的关系。顺序反应变量至少有三组具有自然顺序的,例如热、中、冷。
例如市场分析师想确定哪些变量会影响在电影院购买大、中、小爆米花的决定。
(3)Nominal logistic regression(多项式逻辑回归):norminal变量至少有三组,且没有自然顺序,例如划痕、凹痕、撕裂。
例如一位质量分析师研究影响产品缺陷类型几率的变量:划痕、凹痕和撕裂。
三、计数因变量回归分析
因变量是项目、时间、结果或者活动的计数,需要使用不同类型的回归模型。
计数是非负整数,具有较高均值的计数往往是正态分布的,可以使用OSL。但均值较小的计数会出现偏差,线性回归效果不好。
Poisson regression(泊松回归)
计数数据通常遵循泊松分布。泊松变量是在一个恒定的时间、面积或另一个一致的观察长度上对某事物的计数,泊松变量计算和评估发生率。
使用最大似然估计,对因变量进行自然对数处理。
常用于发生率的估计。
当计数数据不遵循泊松分布时,也有其它方法。
Negative binomial regression(NB2,负二项分布):泊松回归假设方差等于均值。当方差大于均值,模型过度分散,负二项分布适用。
Zero-inflated models(零膨胀模型):计数数据太多0时,不遵循泊松分布。零膨胀模型假设两个单独的过程一起工作以产生过多的零。一个过程是判断有零个事件还是多个事件,另一个过程是泊松过程。例如公园管理员统计每个游客离开公园时捕获鱼的数量。有可能是游客压根没有钓鱼,也有可能是去钓鱼但是没有钓到鱼。