机器学习实战之训练模型-多项式回归(一)

如果数据比简单的直线更为复杂,我们也可以用线性模型来你和非线性数据。一个简单的方法就是将每一个特征的幂次方添加为一个新的特征,然后在这个拓展的特征集上进行线性拟合,这种方法成为多项式回归。

回归分析的目标是根据自变量(或自变量向量)x 的值来模拟因变量 y 的期望值。在简单的线性回归中,使用模型

{y=β_{0}+β_{1}x+\varepsilon }

其中ε是未观察到的随机误差,其以标量 x 为条件,均值为零。在该模型中,对于 x 值的每个单位增加,y 的条件期望增加 {β_{1}} 个单位。

在许多情况下,这种线性关系可能不成立。例如,如果我们根据合成发生的温度对化学合成的产率进行建模,我们可以发现通过增加每单位温度增加的量来提高产率。在这种情况下,我们可能会提出如下所示的二次模型:

{y=β _{0}+β_{1}x+β_{2}x^{2}+\varepsilon }

通常,我们可以将 y 的期望值建模为 n 次多项式,得到一般多项式回归模型:

{y=β _{0}+β_{1}x+β_{2}x^{2}+β_{3}x^{3}+\cdots +β_{n}x^{n}+\varepsilon }

为了方便,这些模型从估计的角度来看都是线性的,因为回归函数就未知参数β_0β_1等而言是线性的。因此,对于最小二乘分析,多项式回归的计算和推理问题可以使用多元回归技术完全解决,这是通过将 xx^2 等视为多元回归模型中的独特自变量来完成的。

一、单个特征值

1.1 生成演示数据

我们举一个简单的例子,我们生成一些符合y = 0.5x^2+2x+2+\varepsilon数据(ε为高斯噪声)。

import numpy as np
import matplotlib.pyplot as plt

X = 10 * np.random.rand(100,1) - 5
X = np.sort(X,axis=0) #为了方便作图,X和y的每一个组合的顺序没有关系的
y = 0.5* X ** 2 + 2 * X + 2 + np.random.randn(100,1)
plt.scatter(X,y,c='green', alpha=0.6)

1.2 生成新的特征

可以看出来,直线是不能拟合这个数据的,我们用Scikit-Learn的PolynomialFeatures对特征进行转换,将每一个特征的平方作为新的特征加入训练集。

from sklearn.preprocessing import PolynomialFeatures
pf = PolynomialFeatures(degree = 2,include_bias = False)
#include_bias:默认为True。如果为True的话,那么就会有常量为1的那一项。
#interaction_only: 默认为False,如果指定为True,那么就不会有特征自己和自己结合的项。
X_new = pf.fit_transform(X)

我们看看新的特征X_new

第一列为原来的X,第二列是X的平方。

1.3 用新的特征进行回归

现在新的特征集X_new包含来原来的特征X和该特征的平方,系那种对这个拓展的训练集匹配一个线性回归模型。

from sklearn.linear_model import LinearRegression
reg = LinearRegression()
reg.fit(X_new,y)
reg.intercept_
reg.coef_

输出:

也就是我们拟合得到的模型是\hat{y} = 0.47x^2+1.95x+2.37,而我们原来的函数是y = 0.5x^2+2x+2+ε已经很不错的拟合了。

1.4 拟合效果

我们看看拟合的曲线。

plt.scatter(X,y,c='green', alpha=0.6)
plt.plot(X, reg.predict(X_new), color='r')
plt.show()

二、多个特征值

当存在多个特征值的时候,多项式回归能发现特征和特征之间的关系(线性回归做不到这个)。PolynomialFeatures会在给定的多项式的阶数下,添加所有的特征组合。如有两个特征a和b,阶数为3的情况下,PolynomialFeatures会添加a^2,b^2,a^3,b^3,ab,a^2b,ab^2

警告!!经过 PolynomialFeatures 之后,样本特征呈指数增长,新增的特征包含了所有可能的样式。

接下来我们演示有两个特征的多项式回归模型的拟合。

2.1 生成演示数据

首先我们模拟两个正态分布的随机特征,通过函数y = 2x_1+3x_2+4x_1^2+5x_1x_2+6x_2^2+7+ ε生成因变量y的数据,我们把X1和X2合并成X,并把X的里两个特征命名为x1和x2

X1 = 10 * np.random.rand(100,1) - 5
X2 = 2 * np.random.rand(100,1) - 9
y = 2 * X1 + 3 * X2 + 4 * X1**2 + 5 * X1*X2 + 6 * X2**2 + 7 + np.random.randn(100,1)
X = pd.DataFrame(np.c_[X1,X2])
X.columns=['x1','x2']

2.2 生成新的特征

针对x1和x2,生成包含x_1x_2,x_1^2,x_2^2特征的df数据框

pf = PolynomialFeatures(degree=2).fit(X)
X_new = pf.transform(X)
clumns_list = pf.get_feature_names(X.columns)
features = pd.DataFrame(X_new, columns=clumns_list)

X_new是这样的

获取X的列名

通过PolynomialFeatures的get_feature_names得到遍历的符合PolynomialFeatures顺序的列名

我们通过pd的DataFrame转换为df数据框,列名为clumns_list,最终的数据如下图:

2.3 用新的特征进行回归

reg = LinearRegression()
reg.fit(features,y)
reg.intercept_
reg.coef_

回归得到的公式是\hat{y} = 1.78x_1+9.96x_2+4.01x_1^2+4.97x_1x_2+6.44x_2^2+34.41
而我们原来的函数是:y = 2x_1+3x_2+4x_1^2+5x_1x_2+6x_2^2+7+ ε还是有点差距的,但这里仅仅是说明这样的方法,不代表方法一定非常准确。

!!多个特征我们无法在平面画出拟合图。

2.4 数据标准化

因为新的拓展的特征的指数导致新的特征的绝对值非常大,数据的差距也会变动非常的大,所以我们要用标准化后的数据进行回归。

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler().fit(X_new)
X_new_std = scaler.transform(X_new)
features_std = pd.DataFrame(X_new_std, columns=clumns_list)
reg = LinearRegression()
reg.fit(features_std,y)
reg.intercept_

reg.coef_

如果用回归模型进行预测,输入的特征是包含拓展了的特征,并且也是标准化后的特征,如果有新的数据进入需要用拟合的方程进行预测,要把新的数据按同样的规则生成新的特征,并把对应的特征做标准化处理。对新的特征的标准化处理方法:(数值-scaler.mean_)/np.sqrt(scaler.var_)

具体结果不演示了。

三、Pipeline

为了简化这个过程,Scikit-Learn中的 Pipeline 将这三个模型封装起来串联操作,让模型接口更加简洁,使用起来方便的减少代码量同时让机器学习的流程变得直观和更加的优雅。函数 PolynomialRegression() 中传入的超参数 degree 是用来指定所得的多项式回归中所用多项式的阶次。

pipeline最后一步如果有predict()方法我们才可以对pipeline使用fit_predict(),同理,最后一步如果有transform()方法我们才可以对pipeline使用fit_transform()方法。

3.1 生成模拟数据

我们同样用会第一部分的模拟数据

X = 10 * np.random.rand(100,1) - 5
X = np.sort(X,axis=0) ##为了方便作图,X和y的每一个组合的顺序没有关系的
y = 0.5* X ** 2 + 2 * X + 2 + np.random.randn(100,1)

3.2 建立模型

用6阶转换以及标准化后用线性模型

poly_reg = Pipeline([
("poly", PolynomialFeatures(degree=6)),
("std_scaler", StandardScaler()),
("lin_reg", LinearRegression())
])

3.3 拟合曲线

poly_reg.fit(X, y)
y_predict = poly_reg.predict(X)
plt.scatter(X,y, alpha=0.6)
plt.plot(X, y_predict, color='r')
plt.show()

我们也可以得到模型的参数,可以通过参数把拟合方程描述处理,但如果用这个拟合方程预测,输入的新数据都要做特征转换和标准化,比较麻烦,直接用上面的poly_reg.predict(X)更方便。

多项式回归的内容很多,过拟合、模型交叉检验、学习曲线等内容下篇再介绍。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,137评论 6 511
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,824评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,465评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,131评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,140评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,895评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,535评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,435评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,952评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,081评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,210评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,896评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,552评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,089评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,198评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,531评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,209评论 2 357

推荐阅读更多精彩内容