回归算法之线性回归

线性回归的定义是:目标值预期是输入变量的线性组合。线性模型形式简单、易于建模,但却蕴含着机器学习中一些重要的基本思想。线性回归,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。

优点:结果易于理解,计算不复杂

缺点:对非线性的数据拟合不好

适用数据类型:数值型和标称型

对于单变量线性回归,例如:前面房价例子中房子的大小预测房子的价格。f(x) = w1*x+w0,这样通过主要参数w1就可以得出预测的值。

通用公式为:

h\left(\theta\right){=}\theta_0+\theta_1{x}h(θ)=θ​0​​+θ​1​​x

那么对于多变量回归,例如:瓜的好坏程度 f(x) = w0+0.2色泽+0.5根蒂+0.3*敲声,得出的值来判断一个瓜的好与不好的程度。

通用公式为:

h\left(\theta\right){=}\theta_{0}+\theta_{1}{x_{1}}+\theta_{2}{x_{2}}h(θ)=θ​0​​+θ​1​​x​1​​+θ​2​​x​2​​

线性模型中的向量W值,客观的表达了各属性在预测中的重要性,因此线性模型有很好的解释性。对于这种“多特征预测”也就是(多元线性回归),那么线性回归就是在这个基础上得到这些W的值,然后以这些值来建立模型,预测测试数据。简单的来说就是学得一个线性模型以尽可能准确的预测实值输出标记。

那么如果对于多变量线性回归来说我们可以通过向量的方式来表示W值与特征X值之间的关系:

\theta = \begin{pmatrix}\theta_0 \\\theta_1 \\\theta_2 \\\theta_3\end{pmatrix}θ=​⎝​⎜​⎜​⎛​​​θ​0​​​θ​1​​​θ​2​​​θ​3​​​​​⎠​⎟​⎟​⎞​​ X = \begin{pmatrix}x_0\\x_1\\x_2\\x_3\end{pmatrix}X=​⎝​⎜​⎜​⎛​​​x​0​​​x​1​​​x​2​​​x​3​​​​​⎠​⎟​⎟​⎞​​

两向量相乘,结果为一个整数是估计值,其中所有特征集合的第一个特征值x_0x​0​​=1,那么我们可以通过通用的向量公式来表示线性模型:

h(\theta) = \theta^T * xh(θ)=θ​T​​∗x

一个列向量的转置与特征的乘积,得出我们预测的结果,但是显然我们这个模型得到的结果可定会有误差,如下图所示:

单变量

多变量

损失函数

损失函数是一个贯穿整个机器学习重要的一个概念,大部分机器学习算法都会有误差,我们得通过显性的公式来描述这个误差,并且将这个误差优化到最小值。

对于线性回归模型,将模型与数据点之间的距离差之和做为衡量匹配好坏的标准,误差越小,匹配程度越大。我们要找的模型就是需要将f(x)和我们的真实值之间最相似的状态。于是我们就有了误差公式,模型与数据差的平方和最小:

J\left(\theta\right){=}\sum_{i=1}^{m} \left({h_\theta}({x}^{(i)}){-}{y}^{(i)}\right)^{2}J(θ)=∑​i=1​m​​(h​θ​​(x​(i)​​)−y​(i)​​)​2​​

上面公式定义了所有的误差和,那么现在需要使这个值最小?那么有两种方法,一种使用梯度下降算法另一种使正规方程解法(只适用于简单的线性回归)

梯度下降算法

上面误差公式是一个通式,我们取两个单个变量来求最小值,误差和可以表示为:

cost\left({w_0+w_1x_1}\right){=}\sum_{i=1}^{N} \left({w_0+w_1x_i}{-}{y_i}\right)^{2}cost(w​0​​+w​1​​x​1​​)=∑​i=1​N​​(w​0​​+w​1​​x​i​​−y​i​​)​2​​

可以通过调整不同的w_1w​1​​和w_0w​0​​的值,就能使误差不断变化,而当你找到这个公式的最小值时,你就能得到最好的w_1w​1​​,w_0w​0​​ 而这对\left({w_1},{w_0}\right)(w​1​​,w​0​​)就是能最好描述你数据关系的模型参数。

怎么找cost\left({w_0+w_1x_1}\right)cost(w​0​​+w​1​​x​1​​)的最小? cost\left({w_0+w_1x_1}\right)cost(w​0​​+w​1​​x​1​​)的图像其实像一个山谷一样,有一个最低点。找这个最低点的办法就是,先随便找一个点(w_1w​1​​=5, w_0w​0​​=4), 然后 沿着这个碗下降的方向找,最后就能找到山谷的最低点。

所以得出{w_1^{''}}-{w_1^{'}}=-\frac{\partial{cost\left({w_0+w_1x_1}\right)}}{\partial w1}w​1​​′′​​​​−w​1​​′​​​​=−​∂w1​​∂cost(w​0​​+w​1​​x​1​​)​​,那么这个过程是按照某一点在w_1w​1​​上的偏导数下降寻找最低点。当然在进行移动的时候也需要考虑,每次移动的速度,也就是\alphaα的值,这个值也叫做(学习率),如下式:

{w_1}:=-{w_1}-\alpha\frac{\partial{cost\left({w_0+w_1x_1}\right)}}{\partial w1}w​1​​:=−w​1​​−α​∂w1​​∂cost(w​0​​+w​1​​x​1​​)​​

{w_0}:=-{w_0}-\alpha\frac{\partial{cost\left({w_0+w_1x_1}\right)}}{\partial w1}w​0​​:=−w​0​​−α​∂w1​​∂cost(w​0​​+w​1​​x​1​​)​​

这样就能求出w_0,w_1w​0​​,w​1​​的值,当然你这个过程是不断的进行迭代求出来,通过交叉验证方法即可。

LinearRegression

sklearn.linear_model.LinearRegression

class LinearRegression(fit_intercept = True,normalize = False,copy_X = True,n_jobs = 1)

  """

  :param normalize:如果设置为True时,数据进行标准化。请在使用normalize = False的估计器调时用fit之前使用preprocessing.StandardScaler

  :param copy_X:boolean,可选,默认为True,如果为True,则X将被复制

  :param n_jobs:int,可选,默认1。用于计算的CPU核数

  """

实例代码:

fromsklearn.linear_modelimportLinearRegressionreg = LinearRegression()

方法

fit(X,y,sample_weight = None)

使用X作为训练数据拟合模型,y作为X的类别值。X,y为数组或者矩阵

reg.fit ([[0,0], [1,1], [2,2]], [0,1,2])

predict(X)

预测提供的数据对应的结果

reg.predict([[3,3]])array([3.])

属性

coef_

表示回归系数w=(w1,w2....)

reg.coef_array([0.5,0.5])

intercept_ 表示w0

加入交叉验证

前面我们已经提到了模型的交叉验证,那么我们这个自己去建立数据集,然后通过线性回归的交叉验证得到模型。由于sklearn中另外两种回归岭回归、lasso回归都本省提供了回归CV方法,比如linear_model.Lasso,交叉验证linear_model.LassoCV;linear_model.Ridge,交叉验证linear_model.RidgeCV。所以我们需要通过前面的cross_validation提供的方法进行k-折交叉验证。

fromsklearn.datasets.samples_generatorimportmake_regressionfromsklearn.model_selectionimportcross_val_scorefromsklearnimportlinear_modelimportmatplotlib.pyplotaspltlr = linear_model.LinearRegression()X, y = make_regression(n_samples=200, n_features=5000, random_state=0)result = cross_val_score(lr, X, y)printresult

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,185评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,445评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,684评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,564评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,681评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,874评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,025评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,761评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,217评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,545评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,694评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,351评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,988评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,778评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,007评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,427评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,580评论 2 349

推荐阅读更多精彩内容