线性回归模型

回归算法

线性回归

线性回归的定义是:目标值预期是输入变量的线性组合。线性模型形式简单、易于建模,但却蕴含着机器学习中一些重要的基本思想。线性回归,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。

优点:结果易于理解,计算不复杂

缺点:对非线性的数据拟合不好

适用数据类型:数值型和标称型

将要用来描述这个回归问题的标记如下:

m 代表训练集中实例的数量

x 代表特征/输入变量

y 代表目标变量/输出变量

\left( x,y \right) 代表训练集中的实例

({{x}^{(i)}},{{y}^{(i)}}) 代表第i 个观察实例

h 代表学习算法的解决方案或函数也称为假设(hypothesis

例如:房价例子中房子的大小预测房子的价格。h(\theta)=\theta_{0}+\theta_{1} x,其中x表示房子的大小,选择合适的参数parameters\theta_{0}\theta_{1},在房价问题这个例子中便是直线的斜率和在y 轴上的截距。

通用公式为:
h(\theta)=\theta_{0}+\theta_{1} x
那么我们可以通过向量的方式来表示\theta就值与特征X值之间的关系:
\theta=\left( \begin{array}{l}{\theta_{0}} \\ {\theta_{1}} \\ \end{array}\right) ;X=\left( \begin{array}{l}{x_{0}} \\ {x_{1}} \end{array}\right)
两向量相乘,结果为一个整数是估计值,其中所有特征集合的第一个特征值x0=1,那么我们可以通过通用的向量公式来表示线性模型:
h_\theta(x) = \theta^T X
一个列向量的转置与特征的乘积,得出我们预测的结果,但是显然我们这个模型得到的结果可定会有误差,如下图所示:

最小二乘法.jpg

我们选择的参数决定了我们得到的直线相对于我们的训练集的准确程度,模型所预测的值与训练集中实际值之间的差距(下图中红线所指)就是建模误差modeling error)。

损失函数

损失函数在机器学习中是个重要的概念,大部分机器学习算法都会有误差,我们得通过显性的公式来描述这个误差,并且将这个误差优化到最小值。

对于线性回归模型,将模型与数据点之间的距离差之和做为衡量匹配好坏的标准,误差越小,匹配程度越大。我们要找的模型就是需要将f(x)和我们的真实值之间最相似的状态。于是我们就有了误差公式,模型与数据差的平方和最小(又称最小二乘法):
J(\theta)=\frac{1}{2 m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}
要使 J(θ) 误差最小,可以采用一下两种方法:一种使正规方程解法(只适用于简单的线性回归)另一种使用梯度下降算法

正规方程

求解:
\theta=\left(X^{T} X\right)^{-1} X^{T} y
X为特征值矩阵,y为目标值矩阵

缺点:当特征过于复杂,求解速度太慢

​ 对于复杂的算法,不能使用正规方程求解(逻辑回归等)

梯度下降算法

假设线性函数形式:h_\theta \left( x \right)=\theta_{0}+\theta_{1}x

损失函数(又称代价函数或成本函数):
J(\theta)=\frac{1}{2 m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}
梯度下降是一个用来求函数最小值的算法,将使用梯度下降算法来求出损失函数J(\theta_{0}, \theta_{1}) 的最小值。

梯度下降思想:开始时我们随机选择一个参数的组合\left( {\theta_{0}},{\theta_{1}},......,{\theta_{n}} \right),计算损失函数,然后我们寻找下一个能让损失函数值下降最多的参数组合。我们持续这么做直到找到一个局部最小值(local minimum),因为我们并没有尝试完所有的参数组合,所以不能确定我们得到的局部最小值是否便是全局最小值(global minimum),选择不同的初始参数组合,可能会找到不同的局部最小值。

梯度下降理解:想象你自己正站立在山的这一点上,站立在你想象的公园这座红色山上,在梯度下降算法中,我们要做的就是旋转360度,看看我们的周围,并问自己要在某个方向上,用小碎步尽快下山。这些小碎步需要朝什么方向?如果我们站在山坡上的这一点,你看一下周围,你会发现最佳的下山方向,你再看看周围,然后再一次想想,我应该从什么方向迈着小碎步下山?然后你按照自己的判断又迈出一步,重复上面的步骤,从这个新的点,你环顾四周,并决定从什么方向将会最快下山,然后又迈进了一小步,并依此类推,直到你接近局部最低点的位置。

梯度下降2.png

批量梯度下降(batch gradient descent)算法的公式为:
\theta_{j} :=\theta_{j}-\alpha \frac{\partial}{\partial \theta_{j}} J(\theta)
其中\alpha是学习率(learning rate),它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大,在批量梯度下降中,我们每一次都同时让所有的参数减去学习速率乘以代价函数的导数。

接下来,对之前的线性回归问题运用批量梯度下降算法,关键在于求出代价函数的导数,即:

\frac{\partial }{\partial {{\theta }_{j}}}J({{\theta }_{0}},{{\theta }_{1}})=\frac{\partial }{\partial {{\theta }_{j}}}\frac{1}{2m}{{\sum\limits_{i=1}^{m}{\left( {{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)}}^{2}}

j=0 时:\frac{\partial }{\partial {{\theta }_{0}}}J({{\theta }_{0}},{{\theta }_{1}})=\frac{1}{m}{{\sum\limits_{i=1}^{m}{\left( {{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)}}}

j=1 时:\frac{\partial }{\partial {{\theta }_{1}}}J({{\theta }_{0}},{{\theta }_{1}})=\frac{1}{m}\sum\limits_{i=1}^{m}{\left( \left( {{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)\cdot {{x}^{(i)}} \right)}

则算法改写成:

Repeat {

{\theta_{0}}:={\theta_{0}}-\alpha\frac{1}{m}\sum\limits_{i=1}^{m}{ \left({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)}

{\theta_{1}}:={\theta_{1}}-\alpha\frac{1}{m}\sum\limits_{i=1}^{m}{\left( \left({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)\cdot {{x}^{(i)}} \right)}

}

当然,梯度下降算法还有:随机梯度下降算法,小批量梯度下降算法等,详情请参考《吴恩达机器学习公开课》《深度学习500问》。

线性回归算法比较:

(m训练样本数,n特征数量)

算法 m很大 是否支持核外 n很大 超参数 是否需要缩放 sklearn
正规方程 0 LinearRegression
批量梯度下降(BGD) 2
随机梯度下降(SGD) >=2 SGDRegression
小批量梯度下降(Mini-batch GD) >=2
过拟合处理方法:
1.增加训练数据 可以有限的避免过拟合
2.特征选择 手动有选择性删除特征;使用模型进行特征选择(例如PCA)
3.正则化 保留所有特征,但减少参数的大小

正则化:

为了防止线性回归中出现过拟合现象,我们通常采用正则化方法进行处理(在损失函数中添加一个正则项)。

接下来,用以下标记来描述这个损失函数:

m 表示训练集中实例的数量。

\lambda 表示用来控制的是对模型正则化的程度。

r 表示通过控制r来调节岭回归与套索回归的混合比例。

岭(Ridge)回归的损失函数:
J(\theta)=\frac{1}{2 m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}+\lambda \frac{1}{2} \sum_{j=1}^{n} \theta_{j}^{2}
套索(Lasso)回归的损失函数:
J(\theta)=\frac{1}{2 m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}+\lambda \sum_{j=1}^{n}\left|\theta_{j}\right|
弹性网络(Elastic Net)的损失函数:
J(\theta)=\frac{1}{2 m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}+r \lambda \sum_{j=1}^{n}\left|\theta_{j}\right|+\frac{1-r}{2} \lambda \sum_{j=1}^{n} \theta_{j}^{2}

LinearRegression
  1. LinearRegression是线性回归模型,它的原型为:

    class sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False,copy_X=True, n_jobs=1)
    
    • fit_intercept:一个布尔值,偏置项,指定是否需要计算截距项。
    • normalize:一个布尔值。如果为True,那么训练样本会在训练之前会被归一化。
    • copy_X:一个布尔值。如果为True,则会拷贝X
    • n_jobs:一个整数,指定计算并行度。
  2. 模型属性:

    • coef_:权重向量。
    • intercept_b 值。
  3. 模型方法:

    • fit(X,y[,sample_weight]):训练模型。
    • predict(X):用模型进行预测,返回预测值。
    • score(X,y[,sample_weight]):返回模型的预测性能得分。
SGDRegressor
  1. SGD类实现了SGD线性回归模型。其原型为:

    class sklearn.linear_model.SGDRegressor(loss='squared_loss', penalty='l2', alpha=0.0001, l1_ratio=0.15, fit_intercept=True, max_iter=None, tol=None, shuffle=True, verbose=0, epsilon=0.1, random_state=None, learning_rate='invscaling', eta0=0.01, power_t=0.25, early_stopping=False, validation_fraction=0.1, n_iter_no_change=5, warm_start=False, average=False, n_iter=None)
    
    • loss :字符串, 默认: squared_loss,可选项:squared_loss, huber, epsilon_insensitive, or squared_epsilon_insensitive
    • penalty: 字符串,惩罚项: none, l2, l1, or elasticnet
    • alpha : 浮点数,默认:0.0001用来控制的是对模型正则化的程度。
    • l1_ratio:通过控制这个参数来调节岭回归与套索回归的混合比例 。
    • max_iter: 指定最大迭代次数。
    • tol:一个浮点数,指定判断迭代收敛与否的阈值。
    • learning_rate: 字符串, 学习率,可选项 constantoptimalinvscalingadaptive
  2. 模型属性:

    • coef_:权重向量。
    • intercept_b 值。
    • n_iter_:实际迭代次数。

    3.模型方法: 参考LinearRegression

Ridge(岭回归)
  1. Ridge类实现了岭回归模型。其原型为:

    class sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True, normalize=False, copy_X=True, max_iter=None, tol=0.001, solver='auto', random_state=None)
    
    • alpha: 控制的是对模型正则化的程度。

    • max_iter: 指定最大迭代次数。

    • tol:一个浮点数,指定判断迭代收敛与否的阈值。

    • solver:一个字符串,指定求解最优化问题的算法。可以为:

      • 'auto':根据数据集自动选择算法。

      • 'svd':使用奇异值分解来计算回归系数。

      • 'cholesky':使用scipy.linalg.solve函数来求解。

      • 'sparse_cg':使用scipy.sparse.linalg.cg函数来求解。

      • 'lsqr':使用scipy.sparse.linalg.lsqr函数求解。

        它运算速度最快,但是可能老版本的scipy不支持。

      • 'sag':使用Stochastic Average Gradient descent算法求解最优化问题。

    • random_state:用于设定随机数生成器,它在solver=sag时使用。

    • 其它参数参考LinearRegression

  2. 模型属性:

    • coef_:权重向量。
    • intercept_b 值。
    • n_iter_:实际迭代次数。
  3. 模型方法: 参考LinearRegression

Lasso(套索回归)
  1. Lasso类实现了Lasso回归模型。其原型为:

    lass sklearn.linear_model.Lasso(alpha=1.0, fit_intercept=True, normalize=False,precompute=False, copy_X=True, max_iter=1000, tol=0.0001, warm_start=False, positive=False, random_state=None, selection='cyclic')
    
    • alpha: 控制的是对模型正则化的程度。
    • precompute:一个布尔值或者一个序列。是否提前计算Gram矩阵来加速计算。
    • warm_start:是否从头开始训练。
    • positive:一个布尔值。如果为True,那么强制要求权重向量的分量都为正数。
    • selection:一个字符串,可以为'cyclic'或者'random'。它指定了当每轮迭代的时候,选择权重向量的哪个分量来更新。
      • 'random':更新的时候,随机选择权重向量的一个分量来更新
      • 'cyclic':更新的时候,从前向后依次选择权重向量的一个分量来更新
    • 其它参数参考Ridge
  2. 模型属性:参考Ridge

  3. 模型方法: 参考LinearRegression

ElasticNet(弹性网络)
  1. ElasticNet类实现了ElasticNet回归模型。其原型为:

    class sklearn.linear_model.ElasticNet(alpha=1.0, l1_ratio=0.5, fit_intercept=True,normalize=False, precompute=False, max_iter=1000, copy_X=True, tol=0.0001,warm_start=False, positive=False, random_state=None, selection='cyclic')
    
    • alpha: 控制的是对模型正则化的程度。
    • l1_ratio:通过控制这个参数来调节岭回归与套索回归的混合比例 。
    • 其它参数参考 Lasso
  2. 模型属性:参考 Lasso

  3. 模型方法:参考 Lasso

参考资料:
《吴恩达机器学习》《sklearn官方文档》《AI算法工程师手册》

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,444评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,421评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,363评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,460评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,502评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,511评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,280评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,736评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,014评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,190评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,848评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,531评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,159评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,411评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,067评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,078评论 2 352

推荐阅读更多精彩内容