(readme:1.3.1 以“.”为区分可以分为三部分,第二部分该部分有共有几个小节,第三部分为当前为第几小节)
这里主要介绍的是线性回归的理论,将在线性回归(1.3.3)中具体介绍线性回归的开发流程。
1.什么是线性回归
在统计学中,线性回归(linear regression)是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归(multivariate linear regression)。(来自维基百科) 简单的说,线性回归就是给出一个点集D,用一个函数去拟合这个点集,并且使得点集与拟合函数间的误差最小。
对于给定数据集,其中
。
线性回归模型试图找到一个参数来表述特征值与目标之间的关系:
(1)
为了表示方便 可以将(1)式写成:
(2)
i表示第 i 个样本,j 表示样本中第 j 个属性。
注意:上面定义中 j 的取值范围是1~n; (2)式中 j 的取值范围是0~n,此时 此时
即为(1)式中的偏移量b。
形如 如果特征向量
只有一个信息字段特征1 ,则该问题被称作一元线性回归(simple linear regression );如果特征向量
有多个字段信息特征, 该问题也被称作多元线性回归(multivariate linear regression)。
1.2 线性回归的损失函数
在线性回归的过程中,预测结果和真实结果是存在误差的,误差的大小通常用损失函数 表示。在回归里面每个方法都有自己的损失函数。所以本文中(1)式可以写成 (3)
(2)式中b表示函数的偏置,为了表示方便可以将(2)中一样写成
(4)
一般来说,在机器学习算法表示中,更习惯用(2)式和(4)来表示。
1.3 广义线性回归的定义
在现实生活中并不是所有的特征向量都能够用简单的用特征与权重的线性组合表示,如下图,函数与某些特征向量之间可能是平方、立方等的关系,这种情况的回归方程被称作广义线性回归。
。其中,
是系数,
是这个系数组成的向量,它的影响着不同维度的
在回归函数中的影响度。例如,对于房子的售价来说,表示房子朝向的权重
一定比表示房子面积权重的
更小。