python-多元回归分析实战案例

import pandas as pd
import numpy as np
import statsmodels.formula.api as smf
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt

读取外部的销售数据

sales = pd.read_csv( 'C:\Users\xn084037\Desktop\AdData.csv')

查看数据的前5行

对数据做相关性分析,结果显示Income与avg_exp高度相关,因此可以做简单线性模型

ccc=sales[['sales', 'TV', 'radio', 'newspaper']].corr(method='pearson')
print(ccc)

TV当作自变量,#sales当作因变量,观察散点图趋势

sales.plot('sales', 'TV', kind='scatter' )
plt.show()

radio当作自变量,#sales当作因变量,观察散点图趋势

sales.plot('sales', 'radio', kind='scatter' )
plt.show()

newspaper当作自变量,#sales当作因变量,观察散点图趋势

sales.plot('sales', 'newspaper', kind='scatter' )
plt.show()
sales.head()

数据集中各变量的描述性统计分析

sales.describe()

通过数据的描述性统计分析,我们可以得到这些数值变量的基本统计值,如均值、

最小值、最大值、下四分位、上四分位、标准差,而这些统计值有助于你对数据的理解和分布的解读。接下来需要根据读取进来的数据构造回归模型,但建模之前,我们一般需要将数据集拆分成训练集(用于建模)和测试集(用于模型的评估)两个部分。

抽样--构造训练集和测试集

Train,Test = train_test_split(sales, train_size = 0.8, random_state= 1234)

建模

fit = smf.ols( 'sales~TV+radio+newspaper', data = Train).fit()

模型概览的反馈

fit.summary()

通过模型反馈的结果我们可知,模型是通过显著性检验的,即F统计量所对应的P值是远远小于0.05这个阈值的,说明需要拒绝原假设(即认为模型的所有回归系数都不全为0)。

在上一期的文章中,我们说过,模型的显著性通过检验的话,并不代表每一个自变量都对因变量是重要的,所以还需要进行偏回归系数的显著性检验。通过上图的检验结果显示,除变量newspaper对应的P值超过0.05,其余变量都低于这个阈值,说明newspaper这个广告渠道并没有影响到销售量的变动,故需要将其从模型中剔除。

重新建模

fit2 = smf.ols( 'sales~TV+radio', data = Train.drop( 'newspaper', axis = 1)).fit()

模型信息反馈

fit2.summary()

通过第二次建模(模型中剔除了newspaper这个变量),结果非常明朗,一方面模型通过了显著性检验,另一方面,所有的变量也通过了显著性检验。那问题来了,难道你剔除了newspaper这个变量后,模型效果确实变好了吗?验证一个模型好不好,只需要将预测值和真实值做一个对比即可,如果模型越优秀,那预测出来的结果应该会更接近与现实数据。接下来,我们就基于fit和fit2这两个模型,分别在Test数据集上做预测:

第一个模型的预测结果

pred = fit.predict(exog = Test)

第二个模型的预测结果

pred2 = fit2.predict(exog = Test.drop( 'newspaper', axis = 1))

模型效果对比

RMSE = np.sqrt(mean_squared_error(Test.sales, pred))
RMSE2 = np.sqrt(mean_squared_error(Test.sales, pred2))
print('第一个模型的预测效果:RMES=%.4fn'%RMSE)
print('第二个模型的预测效果:RMES=%.4fn' %RMSE2)

对于连续变量预测效果的好坏,我们可以借助于RMSE(均方根误差,即真实值与预测值的均方根)来衡量,如果这个值越小,就说明模型越优秀,即预测出来的值会越接近于真实值。很明显,模型2的RMSE相比于模型1会小一些,模型会更符合实际。最后,我们再利用可视化的方法来刻画真实的观测点与拟合线之间的关系:

真实值与预测值的关系# 设置绘图风格

plt.style.use( 'ggplot')

设置中文编码和负号的正常显示

plt.rcParams[ 'font.sans-serif'] = 'Microsoft YaHei'

散点图

plt.scatter(Test.sales, pred, label = '观测点')

回归线

plt.plot([Test.sales.min(), Test.sales.max()], [pred.min(), pred.max()], 'r--', lw= 2, label = '拟合线')

添加轴标签和标题

plt.title( '真实值VS.预测值')
plt.xlabel( '真实值')
plt.ylabel( '预测值')

去除图边框的顶部刻度和右边刻度

plt.tick_params(top = 'off', right = 'off')

添加图例

plt.legend(loc = 'upper left')

图形展现

plt.show()

从上面的关系图来看,模型确实拟合的还是蛮不错的,这些真实点基本上都在拟合线附近,并没有产生太大的差异。

以上所分享的案例,全都是通过Python工具完成分析和建模的落地

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,324评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,356评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,328评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,147评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,160评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,115评论 1 296
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,025评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,867评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,307评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,528评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,688评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,409评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,001评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,657评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,811评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,685评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,573评论 2 353