Python数据挖掘实战2:财政收入影响因素及预测

Reference

《Python数据分析与挖掘实战(第2版)》
第6章,页码:P170,代码略有改进
data.csv数据下载

分析过程

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sys
from GM11 import GM11
from sklearn.linear_model import Lasso
from sklearn.svm import LinearSVR
pd.set_option('max_columns',1000)
pd.set_option('max_row',300)
pd.set_option('display.float_format', lambda x: '%.5f' % x)
plt.rcParams['font.sans-serif'] = ['SimHei']  #用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  #用来正常显示负号

data = pd.read_csv('data.csv') #读取数据
print(data.head())  #展示前几行
image.png
#描述性统计分析
#依次计算最小值、最大值、平均值、标准差
description = [data.min(), data.max(), data.mean(), data.std()]
#将结果存入数据框
description = pd.DataFrame(description, index=['Min', 'Max', 'Mean', 'STD']).T
print('描述性统计结果:\n', np.round(description, 2))  #保留两位小数
image.png
#相关性分析
corr = data.corr(method='pearson')  #计算相关系数矩阵
print('相关系数矩阵为:\n', np.round(corr, 2))  #保留两位小数
image.png
#绘制相关性热力图
plt.subplots(figsize=(10, 10))  #设置画面大小
sns.heatmap(corr, annot=True, vmax=1, square=True, cmap="Blues")
plt.title('相关性热力图')
plt.show()
plt.close()
image.png
#数据预处理: Lasso回归选取关键属性
lasso = Lasso(1000)  #调用Lasso()函数,设置λ的值为1000, lasso的复杂程度由λ来控制,λ越大对变量较多的线性模型的惩罚力度就越大,从而最终获得一个变量较少的模型。
lasso.fit(data.iloc[:,0:13], data['y'])
print('相关系数为:\n', np.round(lasso.coef_, 5))  #输出结果,保留5位小数
print('相关系数非零个数为:\n', np.sum(lasso.coef_ != 0))  #计算相关系数非零的个数
mask = lasso.coef_ != 0  #返回一个相关系数是否为零的布尔数组
print('相关系数是否为零:\n', mask)
image.png
mask = np.insert(mask, 13, [False])
# print(mask)
new_data = data.T[mask].T
# print(new_data)

#构建财政收入预测模型
##构建灰色预测模型并预测
new_data.index = range(1994, 2014)
new_data.loc[2014] = None
new_data.loc[2015] = None
cols = ['x1', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8', 'x13']
# print(new_data)
for i in cols:
    f = GM11(new_data.loc[range(1994, 2014), i].values)[0]
    new_data.loc[2014, i] = f(len(new_data) - 1)  #2014年预测结果
    new_data.loc[2015, i] = f(len(new_data))  #2015年预测结果
    new_data[i] = new_data[i].round(2)  #保留两位小数
y = list(data['y'].values)  #提取财政收入列,合并至新数据框中
y.extend([np.nan, np.nan])
new_data['y'] = y
print('预测结果为:\n',new_data.loc[2014:2015,:])  #预测展示
image.png
##构建支持向量回归预测模型
feature = ['x1', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8', 'x13']  #属性所在列
data_train = new_data.loc[range(1994, 2014)].copy()  #灰色预测后的数据,取2014年前的数据建模
data_mean = data_train.mean()
data_std = data_train.std()
data_train = (data_train - data_mean)/data_std  #数据标准化
x_train = data_train[feature].values  #属性数据
y_train = data_train['y'].values  #标签数据

linearsvr = LinearSVR()  #调用LinearSVR()函数
linearsvr.fit(x_train, y_train)
x = ((new_data[feature] - data_mean[feature])/data_std[feature]).values  #预测,并还原结果
new_data[u'y_pred'] = linearsvr.predict(x) * data_std['y'] + data_mean['y']
print('真实值与预测值分别为:\n', new_data[['y', 'y_pred']])
fig = new_data[['y', 'y_pred']].plot(subplots = True, style=['b-o', 'r-*'])
plt.show()
image.png

image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,928评论 6 509
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,748评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,282评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,065评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,101评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,855评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,521评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,414评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,931评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,053评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,191评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,873评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,529评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,074评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,188评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,491评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,173评论 2 357

推荐阅读更多精彩内容