这篇文章躺在简书的草稿里好久了,一直没有鼓起勇气来写,理由其实也很简单,自己并没有学透这个概念。另外也以前也完全没有写过类似的技术文章,唉,不管怎么着,还是先开始吧。
万事开头难,虽然这个头开的很难看,但是开了头才能继续往下走不是。
定义
在数据挖掘中,线性回归属于回归的一种。而回归是一种预测建模技术,其中被估计的因变量是连续的数值。当自变量只有一个时的回归又叫做简单线性回归或一元线性回归。当自变量超过一个时的回归,叫做多元线性回归。
回归的目标是找到一个可以以最小误差拟合输入数据的函数。线性回归的误差函数可以使用绝对误差或误差平方和来表示。
线性回归模型经常用最小二乘逼近来拟合,但他们也可能用别的方法来拟合,比如用最小化“拟合缺陷”在一些其他规范里(比如最小绝对误差回归),或者在桥回归中最小化最小二乘损失函数的惩罚。相反,最小二乘逼近可以用来拟合那些非线性的模型。因此,尽管“最小二乘法”和“线性模型”是紧密相连的,但他们是不能划等号的。
应用场合
线性回归是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。
线性回归有很多实际用途。分为以下两大类:
如果目标是预测或者映射,线性回归可以用来对观测数据集的和X的值拟合出一个预测模型。当完成这样一个模型以后,对于一个新增的X值,在没有给定与它相配对的y的情况下,可以用这个拟合过的模型预测出一个y值。
这一类的例子很多,例如使用其他指数预测股市指数,使用已有的房屋买卖数据预测房屋买卖价格等。
给定一个变量y和一些变量X1,...,Xp,这些变量有可能与y相关,线性回归分析可以用来量化y与Xj之间相关性的强度,评估出与y不相关的Xj,并识别出哪些Xj的子集包含了关于y的冗余信息。
线性回归应用实现
以下是用线性回归预测房屋买卖价格的相关实现,相关数据使用的是coursera上华盛顿大学的“机器学习基础:案例研究”中第二周课上使用的数据。课程链接如下:
Machine Learning Foundations: A Case Study Approach!