python sklearn库实现多元线性回归模型的建立,并进行评估和调优

1.数据集的导入以及自变量和因变量的选取

作为机器学习的入门知识点和模型,网上有很多sklearn库实现线性回归的例子。不过在这里我会从最开始的模型训练到最后的模型调优,统一地进行一个练习,以便对线性回归有个更深入浅出的理解。

首先我们先导入一些相关的包:

import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_predict, train_test_split
from sklearn import datasets
%matplotlib inline
mpl.rcParams['font.family'] = ['sans-serif']
mpl.rcParams['font.sans-serif'] = ['SimHei']
mpl.rcParams['axes.unicode_minus']=False

作为回归模型练习的数据集,就从经典的波士顿房价数据集来进行训练就好,这也是sklearn库中自带的小数据集。在这里,作为自变量X的就是数据集中的feature_names维度,总共有13个维度,所以这是一个多元线性回归模型;因变量y就是我们数据集中的target维度——房价。

data = datasets.load_boston()
df = pd.DataFrame(data.data, columns=data.feature_names)
target = pd.DataFrame(data.target, columns=['MEDV'])
X = df
y = target

2.划分训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=1)
print(X_train.shape)
print(X_test.shape)
1.png

可以看到由于参数test_size是0.5,所以训练集和测试集对半分,维度都是13.

3.模型的训练

划分好训练集和测试集后,就是对模型进行训练了,然后我们输出截距和权重系数,看下模型

lr = LinearRegression()
lr.fit(X_train, y_train)

print(lr.coef_)
print(lr.intercept_)
2.png

因此,波士顿房价的多元线性模型就此诞生,下面就要评估下这两个系数拟合的模型能否相对准确地预测出因变量y——房价了。

4.模型的评估

对于多元线性回归模型的评估,主要有四种指标,这里我选用了RMSE——均方差根,数值越小说明模型拟合度越高

y_pred = lr.predict(X_test)
from sklearn import metrics
MSE = metrics.mean_squared_error(y_test, y_pred)
RMSE = np.sqrt(metrics.mean_squared_error(y_test, y_pred))

print('MSE:',MSE)
print('RMSE:',RMSE)
3.png

图中可以看到RMSE有4.779,说明拟合度还不够高,我们通过可视化来看一下训练后的预测和真实值之间的差异:

plt.figure(figsize=(15,5))
plt.plot(range(len(y_test)), y_test, 'r', label='测试数据')
plt.plot(range(len(y_test)), y_pred, 'b', label='预测数据')
plt.legend()
预测数据和真实数据的折线图.png

可以看到许多地方,红线会明显超出蓝线,说明的确,我们的模型拟合度不够,再换个散点图来更直观地看一下:

plt.scatter(y_test, y_pred)
plt.plot([y_test.min(),y_test.max()], [y_test.min(),y_test.max()], 'k--')
plt.xlabel('真实值')
plt.ylabel('预测值')
预测值和真实值scatter.png

图中我们可以看到,如果完全拟合,散点应该和直线相重合,这里发现,y_test=50的地方,有较多的异常值,而线性回归模型的一大缺点就是对异常值很敏感,会极大影响模型的准确性,因此,下一步,我们就根据这一点,对模型进行优化

5.模型调优

# 去除MEDV=50的异常值
drop_index = y[y['MEDV']==50].index.values
X = X.drop(drop_index)
y = y.drop(drop_index)
# 这里划分训练集和测试集的参数random_state都是1,表示随机分配的数据是同一组
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=1)
# 对训练集进行训练
lr = LinearRegression()
lr.fit(X_train, y_train)
# 对测试集进行预测
y_pred = lr.predict(X_test)
RMSE = np.sqrt(metrics.mean_squared_error(y_test, y_pred))
print('RMSE:',RMSE)
4.png

可以看到,该模型的RMSE变成了3.573,大大提高了模型的准确率。这里我对回归模型的调优主要是两个方面:1. 增加了训练集的数量,提高训练准确度;2. 去除异常值,提高准确度。

plt.scatter(y_test, y_pred)
plt.plot([y_test.min(),y_test.max()], [y_test.min(),y_test.max()], 'k--')
plt.xlabel('真实值')
plt.ylabel('预测值')
调优后的回归模型.png

总结:

线性回归模型的评估可以根据RMSE来判断;调优模型主要通过放大训练集数量以及排除异常值来进行;LinearRegression本身的参数只有四个,大多数情况下也不需要进行参数调整,默认的就OK。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,444评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,421评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,363评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,460评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,502评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,511评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,280评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,736评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,014评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,190评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,848评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,531评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,159评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,411评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,067评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,078评论 2 352

推荐阅读更多精彩内容