简单案例：波士顿房价

首先载入模块，加载数据

import matplotlib.pyplot as plt  #导入matplotlib库
import numpy as np  #导入numpy库
import pandas as pd  #导入pandas库
from sklearn.datasets import load_boston  #从sklearn数据集库导入boston数据
boston=load_boston() #从读取的房价数据存储在boston变量中
print(boston.keys()) #打印boston包含元素

输出结果

image.png

bos = pd.DataFrame(boston.data) #将data转换为DataFrame格式以方便展示
bos_target=pd.DataFrame(boston.target)
#绘图
import matplotlib.font_manager as fm
X=bos.iloc[:,5:6]
y=bos_target
myfont = fm.FontProperties(fname='C:/Windows/Fonts/SIMLI.ttf')
plt.scatter(X,y)
plt.xlabel(u'住宅平均房间数',fontproperties=myfont)
plt.ylabel(u'房屋价格',fontproperties=myfont)
plt.title(u'Rm和MERV的关系',fontproperties=myfont)
plt.show()

image.png

数据集划分，训练50% 验证25% 测试25%（有监督）
sklearn 的model_selection可以实现自动划分
本模型中设置为0.25 即75的训练集 25的测试集

from sklearn.model_selection import train_test_split #导入数据划分包 
X=np.array(X)
y=np.array(y.)
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.25)
X_train.shape,X_test.shape,y_train.shape,y_test.shape

使用sklearn内置的linearregression实现线性回归的求解和预测

from sklearn.linear_model import LinearRegression
lr=LinearRegression()
lr.fit(X_train,y_train)

image.png

返回的结果是linearregression的设置参数，fit_intercept为去中心化，false已进行了中心化
n_job为计算的任务个数，-1为使用全部cpu
求解结果

image.png

基于求解结果对预测集进行预测

y_hat=lr.predict(X_test)
y_hat[0:9]

image.png

绘制拟合曲线


plt.figure(figsize=(10,6))  #设置图片尺寸
t = np.arange(len(X_test))  #创建t变量
#绘制y_test曲线
plt.plot(t, y_test, 'r', linewidth=2, label='y_test') 
#绘制y_test曲线
plt.plot(t, y_hat, 'g', linewidth=2, label='y_hat') 
plt.legend() #设置图例
plt.show()

image.png

用r²,MAE,MSE,RMSE对结果评价

from sklearn import metrics
from sklearn.metrics import r2_score
print("r2:",lr.score(X_test,y_test))
print("r2score:",r2_score(y_test,y_hat))
print("MAE:",metrics.mean_absolute_error(y_test,y_hat))
print("MSE:",metrics.mean_squared_error(y_test,y_hat))
print("MAE:",np.sqrt(metrics.mean_squared_error(y_test,y_hat)))

image.png

编写最小二乘法评估MAE MSE RMSE

import math
#构建最小二乘回归函数
def linefit( x,y):
    N = len(x)  #计算样本值N
    sx,sy,sxx,syy,sxy=0,0,0,0,0  #设置初始值
    for i in range(0,N):  
        sx  += x[i]  #计算xi的总和
        sy  += y[i]  #计算yi的总和
        sxx += x[i]*x[i]  #计算xi平方的总和
        syy += y[i]*y[i]  #计算yi平方的总和
        sxy += x[i]*y[i]  #计算xi*yi的总和
    a = (sy*sx/N -sxy)/( sx*sx/N -sxx)  #求解系数a
    b = (sy - a*sx)/N  #求解系数b
    return a,b      
a,b=linefit(X_train,y_train)
y_hat1=a*X_test+b
print("MAE:",metrics.mean_absolute_error(y_test,y_hat1))
print("MSE:",metrics.mean_squared_error(y_test,y_hat1))
print("MAE:",np.sqrt(metrics.mean_squared_error(y_test,y_hat1)))

image.png

两次的结果可以看到小数最后几位还是存在不同，意味着还存在改进空间。

day01单变量线性回归案例

day01单变量线性回归案例

简单案例：波士顿房价