import pandas as pd
import numpy as np
import statsmodels.formula.api as smf
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt

读取外部的销售数据

sales = pd.read_csv( 'C:\Users\xn084037\Desktop\AdData.csv')

查看数据的前5行

对数据做相关性分析，结果显示Income与avg_exp高度相关，因此可以做简单线性模型

ccc=sales[['sales', 'TV', 'radio', 'newspaper']].corr(method='pearson')
print(ccc)

TV当作自变量，#sales当作因变量，观察散点图趋势

sales.plot('sales', 'TV', kind='scatter' )
plt.show()

radio当作自变量，#sales当作因变量，观察散点图趋势

sales.plot('sales', 'radio', kind='scatter' )
plt.show()

newspaper当作自变量，#sales当作因变量，观察散点图趋势

sales.plot('sales', 'newspaper', kind='scatter' )
plt.show()
sales.head()

数据集中各变量的描述性统计分析

sales.describe()

通过数据的描述性统计分析，我们可以得到这些数值变量的基本统计值，如均值、

最小值、最大值、下四分位、上四分位、标准差，而这些统计值有助于你对数据的理解和分布的解读。接下来需要根据读取进来的数据构造回归模型，但建模之前，我们一般需要将数据集拆分成训练集（用于建模）和测试集（用于模型的评估）两个部分。

抽样--构造训练集和测试集

Train,Test = train_test_split(sales, train_size = 0.8, random_state= 1234)

建模

fit = smf.ols( 'sales~TV+radio+newspaper', data = Train).fit()

模型概览的反馈

fit.summary()

通过模型反馈的结果我们可知，模型是通过显著性检验的，即F统计量所对应的P值是远远小于0.05这个阈值的，说明需要拒绝原假设（即认为模型的所有回归系数都不全为0）。

在上一期的文章中，我们说过，模型的显著性通过检验的话，并不代表每一个自变量都对因变量是重要的，所以还需要进行偏回归系数的显著性检验。通过上图的检验结果显示，除变量newspaper对应的P值超过0.05，其余变量都低于这个阈值，说明newspaper这个广告渠道并没有影响到销售量的变动，故需要将其从模型中剔除。

重新建模

fit2 = smf.ols( 'sales~TV+radio', data = Train.drop( 'newspaper', axis = 1)).fit()

模型信息反馈

fit2.summary()

通过第二次建模（模型中剔除了newspaper这个变量），结果非常明朗，一方面模型通过了显著性检验，另一方面，所有的变量也通过了显著性检验。那问题来了，难道你剔除了newspaper这个变量后，模型效果确实变好了吗？验证一个模型好不好，只需要将预测值和真实值做一个对比即可，如果模型越优秀，那预测出来的结果应该会更接近与现实数据。接下来，我们就基于fit和fit2这两个模型，分别在Test数据集上做预测：

第一个模型的预测结果

pred = fit.predict(exog = Test)

第二个模型的预测结果

pred2 = fit2.predict(exog = Test.drop( 'newspaper', axis = 1))

模型效果对比

RMSE = np.sqrt(mean_squared_error(Test.sales, pred))
RMSE2 = np.sqrt(mean_squared_error(Test.sales, pred2))
print('第一个模型的预测效果：RMES=%.4fn'%RMSE)
print('第二个模型的预测效果：RMES=%.4fn' %RMSE2)

对于连续变量预测效果的好坏，我们可以借助于RMSE(均方根误差，即真实值与预测值的均方根）来衡量，如果这个值越小，就说明模型越优秀，即预测出来的值会越接近于真实值。很明显，模型2的RMSE相比于模型1会小一些，模型会更符合实际。最后，我们再利用可视化的方法来刻画真实的观测点与拟合线之间的关系：

真实值与预测值的关系# 设置绘图风格

plt.style.use( 'ggplot')

设置中文编码和负号的正常显示

plt.rcParams[ 'font.sans-serif'] = 'Microsoft YaHei'

散点图

plt.scatter(Test.sales, pred, label = '观测点')

回归线

plt.plot([Test.sales.min(), Test.sales.max()], [pred.min(), pred.max()], 'r--', lw= 2, label = '拟合线')

添加轴标签和标题

plt.title( '真实值VS.预测值')
plt.xlabel( '真实值')
plt.ylabel( '预测值')

去除图边框的顶部刻度和右边刻度

plt.tick_params(top = 'off', right = 'off')

添加图例

plt.legend(loc = 'upper left')

图形展现

plt.show()

从上面的关系图来看，模型确实拟合的还是蛮不错的，这些真实点基本上都在拟合线附近，并没有产生太大的差异。

以上所分享的案例，全都是通过Python工具完成分析和建模的落地

python-多元回归分析实战案例