介绍
线性和逻辑回归通常是人们在预测建模中学习的第一种算法。由于受欢迎程度,很多分析师甚至认为他们是唯一的回归形式。稍微涉及的人认为他们是所有形式的回归分析中最重要的。
事实是有无数形式的回归,可以执行。每种形式都有其自身的重要性和最适合使用的具体条件。在这篇文章中,我以简单的方式解释了最常用的7种形式的回归。通过这篇文章,我也希望人们发现一个回归广度的想法,而不是对他们遇到的每个问题应用线性/逻辑回归,并希望他们能适应!
目录
什么是回归分析?
为什么我们使用回归分析?
回归的类型是什么?
线性回归
逻辑回归
多项式回归
逐步回归
岭回归
拉索回归
弹性网回归
如何选择正确的回归模型?
什么是回归分析?
回归分析是一种预测建模技术,它调查依赖(目标)和自变量(预测因子)之间的关系。该技术用于预测,时间序列建模和发现变量之间的因果关系。例如,驾驶员的皮疹驾驶与道路交通事故之间的关系最好通过回归研究。
回归分析是数据建模和分析的重要工具。在这里,我们将数据点的曲线/线拟合到数据点之间,使得数据点与曲线或线之间的距离之间的差异最小化。我将在下面的部分详细解释这一点。
为什么我们使用回归分析?
如上所述,回归分析估计两个或多个变量之间的关系。让我们通过一个简单的例子了解这一点:
假设你想根据当前的经济状况来估算一家公司的销售增长。您有最近的公司数据,表明销售额的增长是经济增长的两倍多。利用这种洞察力,我们可以根据当前和过去的信息来预测公司未来的销售情况。
使用回归分析有多个好处。它们如下:
它表示因变量与自变量之间的重要关系。
它表明多个独立变量对因变量的影响的强度。
回归分析还使我们能够比较不同尺度下测量的变量的影响,如价格变化的影响和促销活动的数量。这些优势有助于市场研究人员/数据分析师/数据科学家消除和评估用于构建预测模型的最佳变量集。
我们有多少种回归技术?
有各种各样的回归技术可以做出预测。这些技术主要由三个指标(独立变量的数量,因变量的类型和回归线的形状)驱动。我们将在以下部分详细讨论它们。
对于创造性的,您甚至可以做出新的回归,如果您觉得需要使用上述参数的组合,哪些人以前没有使用过。但在您开始之前,让我们了解最常用的回归:
线性回归
它是最广为人知的建模技术之一。线性回归通常是人们在学习预测模型时选择的头几个主题。在这种技术中,因变量是连续的,独立变量可以是连续的或离散的,回归线的性质是线性的。
线性回归使用最佳拟合直线(也称为回归线)确定因变量(Y)与一个或多个独立变量(X)之间的关系。
它由等式Y = a + b * X + e表示,其中a是截距,b是线的斜率,e是误差项。该方程可以用于基于给定的预测变量来预测目标变量的值。
简单线性回归与多元线性回归之间的差异在于,多元线性回归具有(> 1)自变量,而简单线性回归只有1个独立变量。现在的问题是“我们如何获得最佳配合线?”。
如何获得最佳拟合线(a和b的值)?
这个任务可以通过最小二乘法轻松完成。它是用于拟合回归线的最常用方法。它通过最小化从每个数据点到线的垂直偏差的平方和来计算观测数据的最佳拟合线。因为偏差是第一平方的,所以加上正值和负值之间不会取消。
我们可以使用公制R平方来评估模型性能。要了解有关这些指标的更多详细信息,您可以阅读:模型性能指标第1部分,第2部分。
重点:
独立变量与因变量之间必须存在线性关系
多重回归存在多重共线性,自相关,异方差。
线性回归对异常值非常敏感。它可以极大地影响回归线,最终影响预测值。
多重共线性可以增加系数估计的方差,并使估计对模型的微小变化非常敏感。结果是系数估计不稳定
在多个独立变量的情况下,我们可以选择最有意义的自变量进行前向选择,反向消除和逐步的方法。
逻辑回归
Logistic回归用于查找event = Success和event = Failure的概率。当因变量为二进制(0/1,True / False,Yes / No)时,我们应该使用逻辑回归。这里,Y的值在0〜1之间,可以由下式表示。
odds = p /(1-p)=事件发生概率/事件发生概率ln(odds)= ln(p /(1-p))logit(p)= ln(p /(1-p))= b0 + b1X1 + b2X2 + b3X3 ... + bkXk
以上,p是存在感兴趣特征的概率。你在这里应该问的一个问题是“为什么我们使用登录方程?”。
由于我们在这里使用二项分布(因变量),我们需要选择最适合这种分布的链接函数。而且,它是logit函数。在上面的等式中,选择参数以最大化观察样本值的可能性,而不是最小化平方误差的总和(如在普通回归中)。
重点:
广泛应用于分类问题
逻辑回归不需要依赖变量和自变量之间的线性关系。它可以处理各种类型的关系,因为它将非线性对数变换应用于预测的优势比
为了避免过度拟合和拟合,我们应该包括所有重要的变量。确保这种做法的一个好办法是使用逐步的方法来估计逻辑回归
它需要较大的样本量,因为最小似然估计在低样本量方面比普通最小二乘法不太强大
自变量不应相互关联,即无共线性。然而,我们有选择在分析和模型中包括分类变量的交互效应。
如果因变量的值是序数,则称为有序逻辑回归
如果因变量是多类,则称为多项Logistic回归。
多项式回归
如果自变量的幂大于1,则回归方程为多项式回归方程。下面的公式表示多项式方程:
Y = A + B * X ^ 2
在这种回归技术中,最佳拟合线不是直线。这是一个适合数据点的曲线。
重点:
虽然可能会有一种诱惑来适应更高等级的多项式来获得较低的误差,但这可能会导致过度拟合。始终绘制关系,以确定合适性并集中精力确保曲线符合问题的本质。这是一个例子,说明绘图如何帮助:
特别注意曲线向前,看看这些形状和趋势是否有意义。较高的多项式最终可能会产生外推的结果。
逐步回归
当我们处理多个独立变量时,使用这种回归形式。在这种技术中,自主变量的选择是在自动过程的帮助下进行的,而不需要人为干预。
通过观察诸如R平方,t统计和AIC度量之类的统计值来识别重要变量,可以实现这一特征。逐步回归基本上适合回归模型,通过根据指定的标准一次添加/删除共变量。一些最常用的逐步回归方法如下:
标准逐步回归有两件事情。它根据每个步骤的需要添加和删除预测变量。
前向选择从模型中最重要的预测变量开始,并为每个步骤添加变量。
反向消除从模型中的所有预测变量开始,并删除每个步骤的最不重要的变量。
这种建模技术的目的是以最小数量的预测变量最大化预测能力。它是处理数据集较高维数的方法之一。
岭回归
Ridge回归是当数据遭受多重共线性(独立变量高度相关)时使用的技术。在多重共线性方面,尽管最小二乘估计(OLS)是无偏的,但它们的方差大,将观测值偏离真实值。通过向回归估计增加一定程度的偏差,脊回归减少了标准误差。
以上,我们看到了线性回归方程。记得?它可以表示为:
y = a + b * x
该方程也有一个错误项。完整的方程式成为:
y = a + b * x + e(误差项),[误差项是校正观测值和预测值之间的预测误差所需的值]
=> y = a + y = a + b1x1 + b2x2 + .... + e,用于多个独立变量。
在线性方程中,预测误差可以分解为两个子分量。首先是由于偏差,第二是由于差异。由于这两个或两个组件中的任一个可能会发生预测错误。在这里,我们将讨论由于方差导致的错误。
岭回归通过收缩参数λ(λ)解决了多重共线性问题。看下面的等式。
在这个方程式中,我们有两个组件。第一个是最小平方,另一个是β2(β平方)的和的λ,其中β是系数。这被添加到最小二乘法,以缩小参数以具有非常低的方差。
重点:
该回归的假设与最小二乘回归相同,但不包括正态性
它缩小了系数的值,但没有达到零,这表明没有特征选择特征
这是一个正则化方法,并使用l2正则化。
拉索回归
与Ridge回归类似,Lasso(最小绝对收缩率和选择算子)也惩罚了回归系数的绝对大小。此外,它能够减少线性回归模型的变异性和提高准确性。看下面的等式:
拉索回归与脊回归的不同之处在于它使用惩罚函数中的绝对值而不是正方形。这导致惩罚(或等价地约束估计的绝对值的总和),这导致一些参数估计结果恰好为零。更大的罚款适用,进一步估计收缩到绝对零。这导致给定的n个变量的变量选择。
重点:
该回归的假设与最小二乘回归相同,但不包括正态性
它将系数缩小到零(完全为零),这肯定有助于特征选择
这是一个正则化方法,并使用l1正则化
如果一组预测因子高度相关,套索只选择其中一个,并将其他人缩小到零
弹性网回归
ElasticNet是Lasso和Ridge回归技术的混合体。它被训练用L1和L2作为前调整装置。当有多个相关的特征时,弹性网是有用的。拉索有可能随机选择其中之一,而弹性网则很可能选择两者。
拉索和里奇之间的一个切实的优势是,它允许Elastic-Net继承Ridge在旋转下的一些稳定性。
重点:
在高度相关的变量的情况下,它鼓励群体效应
所选变量的数量没有限制
它可能遭受双收缩
除了这七种最常用的回归技术之外,您还可以查看其他模型,如贝叶斯,生态和鲁棒回归。
如何选择正确的回归模型?
生活通常很简单,当你只知道一两种技巧。我知道的一个培训机构告诉他们的学生 - 如果结果是连续的 - 应用线性回归。如果是二进制 - 使用逻辑回归!然而,我们处理的可用选项数量越多,选择合适的选项就越困难。回归模型也发生了类似的情况。
在多种类型的回归模型中,重要的是选择基于独立和依赖变量的类型,数据中的维度和数据的其他基本特征的最适合的技术。以下是您应该选择正确回归模型的关键因素:
数据探索是构建预测模型的必然部分。在选择正确的模型之前,您应该首先确定变量的关系和影响
为了比较不同模型的拟合优度,我们可以分析不同的指标,如参数的统计学显着性,R平方,调整r平方,AIC,BIC和误差项。另一个是Mallow的Cp标准。这通过将模型与所有可能的子模型(或仔细选择它们)进行比较来基本检查模型中的可能偏差。
交叉验证是评估用于预测的模型的最佳方式。在这里,您将数据集分为两组(训练和验证)。观察值和预测值之间的简单均方差可以给出预测精度的度量。
如果您的数据集具有多个混淆变量,则不应选择自动模型选择方法,因为您不想将它们放在模型中。
这也将取决于你的目标。与高度统计学显着的模型相比,可以发现较不强大的模型易于实现。
回归正则化方法(Lasso,Ridge和ElasticNet)在数据集中变量之间的高维数和多重共线性的情况下工作良好。
结束注
到现在为止,我希望你能有一个回归的概述。这些回归技术应该考虑到数据的条件。找出使用哪种技术的最好方法之一是检查变量族,即离散或连续。
在这篇文章中,我讨论了7种类型的回归和一些与每种技术相关的关键事实。作为这个行业的新人,我建议你学习这些技术,然后在你的模型中实现它们。