简单案例:波士顿房价
首先载入模块,加载数据
import matplotlib.pyplot as plt #导入matplotlib库
import numpy as np #导入numpy库
import pandas as pd #导入pandas库
from sklearn.datasets import load_boston #从sklearn数据集库导入boston数据
boston=load_boston() #从读取的房价数据存储在boston变量中
print(boston.keys()) #打印boston包含元素
输出结果
bos = pd.DataFrame(boston.data) #将data转换为DataFrame格式以方便展示
bos_target=pd.DataFrame(boston.target)
#绘图
import matplotlib.font_manager as fm
X=bos.iloc[:,5:6]
y=bos_target
myfont = fm.FontProperties(fname='C:/Windows/Fonts/SIMLI.ttf')
plt.scatter(X,y)
plt.xlabel(u'住宅平均房间数',fontproperties=myfont)
plt.ylabel(u'房屋价格',fontproperties=myfont)
plt.title(u'Rm和MERV的关系',fontproperties=myfont)
plt.show()
数据集划分,训练50% 验证25% 测试25%(有监督)
sklearn 的model_selection可以实现自动划分
本模型中设置为0.25 即75的训练集 25的测试集
from sklearn.model_selection import train_test_split #导入数据划分包
X=np.array(X)
y=np.array(y.)
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.25)
X_train.shape,X_test.shape,y_train.shape,y_test.shape
使用sklearn内置的linearregression实现线性回归的求解和预测
from sklearn.linear_model import LinearRegression
lr=LinearRegression()
lr.fit(X_train,y_train)
返回的结果是linearregression的设置参数,fit_intercept为去中心化,false已进行了中心化
n_job为计算的任务个数,-1为使用全部cpu
求解结果
基于求解结果对预测集进行预测
y_hat=lr.predict(X_test)
y_hat[0:9]
绘制拟合曲线
plt.figure(figsize=(10,6)) #设置图片尺寸
t = np.arange(len(X_test)) #创建t变量
#绘制y_test曲线
plt.plot(t, y_test, 'r', linewidth=2, label='y_test')
#绘制y_test曲线
plt.plot(t, y_hat, 'g', linewidth=2, label='y_hat')
plt.legend() #设置图例
plt.show()
用r²,MAE,MSE,RMSE对结果评价
from sklearn import metrics
from sklearn.metrics import r2_score
print("r2:",lr.score(X_test,y_test))
print("r2score:",r2_score(y_test,y_hat))
print("MAE:",metrics.mean_absolute_error(y_test,y_hat))
print("MSE:",metrics.mean_squared_error(y_test,y_hat))
print("MAE:",np.sqrt(metrics.mean_squared_error(y_test,y_hat)))
编写最小二乘法 评估MAE MSE RMSE
import math
#构建最小二乘回归函数
def linefit( x,y):
N = len(x) #计算样本值N
sx,sy,sxx,syy,sxy=0,0,0,0,0 #设置初始值
for i in range(0,N):
sx += x[i] #计算xi的总和
sy += y[i] #计算yi的总和
sxx += x[i]*x[i] #计算xi平方的总和
syy += y[i]*y[i] #计算yi平方的总和
sxy += x[i]*y[i] #计算xi*yi的总和
a = (sy*sx/N -sxy)/( sx*sx/N -sxx) #求解系数a
b = (sy - a*sx)/N #求解系数b
return a,b
a,b=linefit(X_train,y_train)
y_hat1=a*X_test+b
print("MAE:",metrics.mean_absolute_error(y_test,y_hat1))
print("MSE:",metrics.mean_squared_error(y_test,y_hat1))
print("MAE:",np.sqrt(metrics.mean_squared_error(y_test,y_hat1)))
两次的结果可以看到小数最后几位还是存在不同,意味着还存在改进空间。