线性回归

1、回归的来源?

英国人类学家F.Galton首次在《自然遗传》一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家Karl Pearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,发现:儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系:

高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种 趋向于种族稳定的现象称之“回归 ”。

目前,“回归”已成为表示 变量之间某种数量依存关系 的统计学术语,并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。

2、变量关系

(1) 函数关系:当自变量取值一定时,因变量取值唯一确定--确定关系

(2) 相关关系:当自变量取值一定时,因变量取值带有一定随机性,例子:一块农田的水稻产量与施肥量之间的关系---不确定关系

主要研究不确定型的函数关系,如收入与受教育程度之间的关系,等等问题。 但它们之间存在明显的相互关系(称为相关关系),又是不确定的。

3、一元线性回归

一元线性回归研究的是一个自变量与一个因变量的统计关系,如人均收入X与人均食品消费支出Y,假设X与Y的关系为Y=aX+b。

4、线性回归的学习目标

用恰当的方法,估计出参数a,b。并且使估计出来的参数具有良好的统计特征。回归问题从某种视角看,视同 参数估计 问题。

5、例子

假设有一个房屋销售的数据如下:面积(m2)     销售价钱(万元)

                                                      123                 250

                                                      150                 320

                                                      87                    160

                                                    102                    220

… …

我们可以画一个图,x轴是房屋的面积。y轴是房屋的售价:

6、回归定义

给定一个点集D,用函数去拟合这个点集,并且使得点集与拟合函数间的误差最小。如果这个函数曲线是一条直线,那就被称为线性回归。

7、建立模型

我们通常认为房屋的售价只与面积相关。实际生活中,影响房价的因素非常多,如房屋的面积、朝向、所在小区、房间的个数等。考虑更多的情况,我们用x1,x2...xn 去描述这些影响房屋售价的因素,这些影响因素在机器学习中称为特征。如x1=房间的面积,x2=房间的朝向等等。考虑两个变量,我们可以做出一个估计函数:

θ在这里称为参数,θ作用可以调整房屋售价的各种因素的作用大小。换句话说影响房屋售价的因素:到底是房屋的面积更重要还是房间朝向更重要?

用向量的方式来表示

在上式中,一旦θ确定,那么我们的直线也就确定了,我们就能够对房价进行预测了。因此我们要做的工作是 确定θ 。 θ的值可以有无数个,我们应该如何选取θ呢?

8、如何确定θ?

最小二乘法

模型估计的值和真实值总是存在误差,为了使模型尽可能的准确,我们希望估计值和真实值之间的误差尽可能小,那么模型就越准确。

由于存在多个点,通常情况下,我们采用误差平方和的形式,使之误差平方和最小

J(θ)函数称为损失函数(loss function),上述问题就转化为求J(θ)的最小值问题。如何求解J(θ)的最小值呢?

9、如何求解J(θ)的最小值?

上式中只有θ是未知数,回顾高数内容,如何求解函数的最小值。通常做法,对目标函数求导,令导数为0,求得的点,即为极值点,如果函数在定义域内是凸函数,那么极值点就是最值点。上述方法就是最小二乘法的思路。

9.1 函数求导法

9.2 矩阵解法

通过“求导=0”,可以将上述方程写成矩阵的形式,从而将问题转化为求解线性方程组问题,矩阵X必须是列满秩矩阵,否则XTX的逆就不会存在。

(1)若XTX不可逆,则方法失效。可通过|XTX|的行列式的值是否为0判断,非0表可逆。

(2)若XTX阶数过高,则需要使用梯度下降的方式计算数值解。

直接求解回归系数优缺点:

优点:求解过程易于理解,计算不复杂。

缺点:对非线性数据的拟合效果差。

9.3 梯度下降法(最速下降法)

梯度下降法是一种求解最优解的迭代算法,先给定一个初始位置,然后向下降最快的方向调整,在若干次迭代之后找到局部最小值。

求最优解方法:

1、如果优化函数存在 解析解 。例如我们求最值一般是对优化函数求导,找到导数为0的点。如果代价函数能简单求导,并且求导后为0的式子存在解析解,那么我们就可以直接得到 最优的参数

2、如果式子很难求导,例如函数里面存在隐含的变量或者变量相互间存在耦合,互相依赖的情况。或者求导后式子得不到解析解,或者未知参数的个数大于方程组的个数等。这时候使用 迭代算法 来一步一步找到最优解。

特别的,若优化函数是凸函数,那么就存在全局最优解,如果函数是非凸的,那么就会有很多局部最优的解,因此凸优化重要性不言而喻。

梯度下降法步骤

(1)初始化θ(随机初始化)

(2)迭代,新的θ能够使得J(θ)更小

(3)如果J(θ)能够继续减少,返回(2)

迭代公式

α为步长(或称学习率)。

9.4 两种实现方式

9.41 批处理梯度下降法

批处理梯度下降法迭代过程把所有的m个样本全部带入计算,迭代一次计算量m*n2。

由于批量梯度下降法每迭代一次更新回归系数时,都要用到训练集所有的数据,如果样本数m很大,那么计算复杂度会很高,速度会很慢。针对这种不足,又引入另一种方法:随机梯度下降法。

9.42 随机梯度下降法( stochastic gradient descent )

随机梯度下降法每次迭代只带入单个样本的回归误差来更新回归系数,迭代一次计算量为n2,当样本量总数m很大时,迭代一次的速度

远远大于批量梯度下降法。

随机梯度下降法每次只带入一个样本进行计算,虽然每次迭代误差准则函数都不一定向着全局最优方向,但是整体方向是向着全局最优方向的,最终结果往往是在全局最优解的附近。

9.5 梯度下降法注意事项

主要考虑两个方面问题: 一是方向 , 二是步长 。

方向决定是否走在最优化的道路上,而步长决定了要多久才能到达最优的地方。 对于第一方面,就是求梯度,多元函数求相应变量的偏导数;对于第二方面,如果步子太少,则需要很长的时间才能达到目的地,如果步子过大,可能导致在目的地周围来回震荡,所以步长选择比较关键。

9.6 改进的随机梯度下降法

100个二维样本,每个样本都对系数调整一次,共有200*100=20000次的系数调整

从上图可以看到随机梯度下降法在迭代了200次中,三个回归系数的变化过程,其中系数X2经过50次迭代达到稳定值,系数X0和X2到100次后逐渐稳定,但还存在一些小的波动。

原因:

存在一些无法准确分类的样本点,也就是说我们的数据集并非线性可分。然而我们的优化程序并没能意识到这些不正常的样本点,还

一视同仁对待,调整系数来达到这些样本的分类误差,所以导致在每次迭代时都引发系数的剧烈波动。

改进:

(1)每次迭代调整步长alpha值。随着迭代的进行,使之alpha越来越小,从而缓解系数的高频波动。避免alpha不断减小到接近于

0,所以需约束alpha比零稍大一点的常数项。

(2)每次迭代改变样本的优化顺序。随机选取样本来更新回归系数,因为样本顺序的改变,使得每次迭代不在形成周期性。

10、衡量预测值是否正确?

衡量预测值代替真实值到底有多正确?可使用 相关系数 进行度量。

python中通过Numpy库提供了相关系数的计算方法。correoef(yEstimate,yActual)

11、相关代码

11.1 加载数据集

11.2 矩阵求解法

11.3 批量梯度下降法

11.4 随机梯度下降法

11.5 改进随机梯度下降法

11.6 训练

11.7 效果

11.8 测试

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容