一.多元线性回归方程

假设样本中有m个特征量，那么对应的线性回归方程如下
$\hat{y} =\theta_{1} x_{1} + \theta_{2} x_{2} +...+ \theta_{m} x_{m}$

二.损失函数的构造

假设样本中有n个训练集

训练集

Loss=\frac{1}{2n} \sum_{i=1}^n(y_{i} -\hat{y}_ {i} )

在m个输出变量y中，用实际值减去回归方程中的预测值，平方求和再求均值来反映回归方程中的输出值与实际输出值的偏差程度平方求和可以避免

y_{i} -\hat{y}_ {i}

不同的正负情况在求和过程中抵消偏差，假如对于某一列中

y_{i} -\hat{y}_ {i}

,另一列中

y_{i} -\hat{y}_ {i}

,实际这两列都有偏差，不平方的的话对应损失为0，显然不妥。

三.迭代过程

利用梯度下降原理来将损失函数不断变小直至收敛，如果对梯度下降不是很清楚的话，可以了解梯度下降和线性回归（一）附python代码实现 - 简书。
$\theta _{i} =\theta _{i} -\alpha \frac{\sigma L(\theta )}{\sigma \theta_{i} }$
$b=b-\alpha \frac{\sigma L(\theta )}{\sigma b }$
$\hat{y}_{i} =\theta_{1} x_{i1} + \theta_{2} x_{i2} +...+ \theta_{m} x_{im}$
$Loss=\frac{1}{2n} \sum_{i=1}^n(y_{i} -\hat{y}_ {i} )$
$\frac{\sigma L(\theta )}{\sigma \theta_{i} } =-\frac{1}{n} \sum_{i=1}^n(y_{i} -\hat{y}_{i} )\frac{1}{n} \sum_{i=1}^n x_{i}$
$\frac{\sigma L(\theta )}{\sigma b } =-\frac{1}{n} \sum_{i=1}^n(y_{i} -\hat{y}_{i} )$
所以：
$\theta _{i} =\theta _{i} +\frac{1}{n} \sum_{i=1}^n(y_{i} -\hat{y}_{i} )\frac{1}{n} \sum_{i=1}^n x_{i}$
$b=b+\alpha \frac{1}{n} \sum_{i=1}^n(y_{i} -\hat{y}_{i} )$

四.利用多元线性回归分析波士顿房价

#调用库

import matplotlib.pyplot as plt

import numpy as np

import pandas as pd

import math

#查看数据集的前30行

df = pd.read_csv("波士顿房价2.csv", index_col=None)

df.head(30)  # 查看数据集的前30行

效果如下：

训练集

需要下载数据集的可以访问百度网盘请输入提取码,提取码1p23

CRIM=floor.loc[:,'CRIM'].values
ZN=floor.loc[:,'ZN'].values
INDUS=floor.loc[:,'INDUS'].values
CHAS=floor.loc[:,'CHAS'].values
NOX=floor.loc[:,'NOX'].values
RM=floor.loc[:,'RM'].values
AGE=floor.loc[:,'AGE'].values
DIS=floor.loc[:,'DIS'].values
RAD=floor.loc[:,'RAD'].values
TAX=floor.loc[:,'TAX'].values
PTRATIO=floor.loc[:,'PTRATIO'].values
LSTAT=floor.loc[:,'LSTAT'].values
MEDV=floor.loc[:,'MEDV'].values

各个特征量含义如下：
CRIM: 城镇人均犯罪率
ZN: 住宅用地所占比例
INDUS: 城镇中非住宅用地所占比例
CHAS: 虚拟变量,用于回归分析
NOX: 环保指数
RM: 每栋住宅的房间数
AGE: 1940 年以前建成的自住单位的比例
DIS: 距离 5 个波士顿的就业中心的加权距离
RAD: 距离高速公路的便利指数
TAX: 每一万美元的不动产税率
PTRATIO: 城镇中的教师学生比例
B: 城镇中的黑人比例
LSTAT: 地区中有多少房东属于低收入人群
MEDV: 自住房屋房价中位数（也就是均价）
在进行梯度下降前，我们需要分割一下数据集，查看数据集大小后，按8:2的比例，将数据集的前406行作为训练集，后面100行作为测试集

训练集大小

测试集划分

测试集

受能力影响，笔者用最比较繁琐的代码实现了梯度下降更新，如果熟悉矩阵乘法，需要简单的实现，可以参考多元线性回归-波士顿房价预测问题python_W_yu_cheng的博客-CSDN博客_波士顿房价问题数学建模。代码如下

#梯度下降法优化拟合方程
#设定参数
learning_rate = 0.001
l=len(MEDV)-106
#损失函数
def L(x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12,y,theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12):
    return pow(theta1*x1+theta2*x2+theta3*x3+theta4*x4+theta5*x5+theta6*x6+theta7*x7+theta8*x8+theta9*x9+theta10*x10+theta11*x11+theta12*x12+theta0-y,2)/(2*l)
#损失函数关于theta1求偏导
def L1(x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12,y,theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12):
    return -x1*(theta1*x1+theta2*x2+theta3*x3+theta4*x4+theta5*x5+theta6*x6+theta7*x7+theta8*x8+theta9*x9+theta10*x10+theta11*x11+theta12*x12+theta0-y)/l
#损失函数关于theta2求偏导
def L2(x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12,y,theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12):
    return -x2*(theta1*x1+theta2*x2+theta3*x3+theta4*x4+theta5*x5+theta6*x6+theta7*x7+theta8*x8+theta9*x9+theta10*x10+theta11*x11+theta12*x12+theta0-y)/l
#损失函数关于theta3求偏导
def L3(x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12,y,theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12):
    return -x3*(theta1*x1+theta2*x2+theta3*x3+theta4*x4+theta5*x5+theta6*x6+theta7*x7+theta8*x8+theta9*x9+theta10*x10+theta11*x11+theta12*x12+theta0-y)/l
#损失函数关于theta4求偏导
def L4(x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12,y,theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12):
    return -x4*(theta1*x1+theta2*x2+theta3*x3+theta4*x4+theta5*x5+theta6*x6+theta7*x7+theta8*x8+theta9*x9+theta10*x10+theta11*x11+theta12*x12+theta0-y)/l
#损失函数关于theta5求偏导
def L5(x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12,y,theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12):
    return -x5*(theta1*x1+theta2*x2+theta3*x3+theta4*x4+theta5*x5+theta6*x6+theta7*x7+theta8*x8+theta9*x9+theta10*x10+theta11*x11+theta12*x12+theta0-y)/l
#损失函数关于theta6求偏导
def L6(x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12,y,theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12):
    return -x6*(theta1*x1+theta2*x2+theta3*x3+theta4*x4+theta5*x5+theta6*x6+theta7*x7+theta8*x8+theta9*x9+theta10*x10+theta11*x11+theta12*x12+theta0-y)/l
#损失函数关于theta7求偏导
def L7(x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12,y,theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12):
    return -x7*(theta1*x1+theta2*x2+theta3*x3+theta4*x4+theta5*x5+theta6*x6+theta7*x7+theta8*x8+theta9*x9+theta10*x10+theta11*x11+theta12*x12+theta0-y)/l
#损失函数关于theta8求偏导
def L8(x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12,y,theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12):
    return -x8*(theta1*x1+theta2*x2+theta3*x3+theta4*x4+theta5*x5+theta6*x6+theta7*x7+theta8*x8+theta9*x9+theta10*x10+theta11*x11+theta12*x12+theta0-y)/l
#损失函数关于theta9求偏导
def L9(x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12,y,theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12):
    return -x9*(theta1*x1+theta2*x2+theta3*x3+theta4*x4+theta5*x5+theta6*x6+theta7*x7+theta8*x8+theta9*x9+theta10*x10+theta11*x11+theta12*x12+theta0-y)/l
#损失函数关于theta10求偏导
def L10(x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12,y,theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12):
    return -x10*(theta1*x1+theta2*x2+theta3*x3+theta4*x4+theta5*x5+theta6*x6+theta7*x7+theta8*x8+theta9*x9+theta10*x10+theta11*x11+theta12*x12+theta0-y)/l
#损失函数关于theta11求偏导
def L11(x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12,y,theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12):
    return -x11*(theta1*x1+theta2*x2+theta3*x3+theta4*x4+theta5*x5+theta6*x6+theta7*x7+theta8*x8+theta9*x9+theta10*x10+theta11*x11+theta12*x12+theta0-y)/l
#损失函数关于theta12求偏导
def L12(x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12,y,theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12):
    return -x12*(theta1*x1+theta2*x2+theta3*x3+theta4*x4+theta5*x5+theta6*x6+theta7*x7+theta8*x8+theta9*x9+theta10*x10+theta11*x11+theta12*x12+theta0-y)/l
#损失函数关于theta0求偏导
def L13(x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12,y,theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12):
    return -(theta1*x1+theta2*x2+theta3*x3+theta4*x4+theta5*x5+theta6*x6+theta7*x7+theta8*x8+theta9*x9+theta10*x10+theta11*x11+theta12*x12+theta0-y)/l
#损失函数值变化记录数组
Loss=[]
#未迭代时的损失函数
Loss0=0
for i in range(l):
    Loss0=Loss0+L(CRIM[i],ZN[i],INDUS[i],CHAS[i],NOX[i],RM[i],AGE[i],DIS[i],RAD[i],TAX[i],PTRATIO[i],LSTAT[i],MEDV[i],10,10,10,10,10,10,10,10,10,10,10,10,10)
Loss.append(Loss0)
#初始化theta0 theta1
theta0=10
theta1=10
theta2=10
theta3=10
theta4=10
theta5=10
theta6=10
theta7=10
theta8=10
theta9=10
theta10=10
theta11=10
theta12=10
#进行迭代
for i in range(2000):
    dertheta0=0
    dertheta1=0
    dertheta2=0
    dertheta3=0
    dertheta4=0
    dertheta5=0
    dertheta6=0
    dertheta7=0
    dertheta8=0
    dertheta9=0
    dertheta10=0
    dertheta11=0
    dertheta12=0
    dertheta13=0
    Loss1=0
    for j in range(l):
        dertheta0=dertheta0+L13(CRIM[j],ZN[j],INDUS[j],CHAS[j],NOX[j],RM[j],AGE[j],DIS[j],RAD[j],TAX[j],PTRATIO[j],LSTAT[j],MEDV[j],theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12)
        dertheta1=dertheta0+L1(CRIM[j],ZN[j],INDUS[j],CHAS[j],NOX[j],RM[j],AGE[j],DIS[j],RAD[j],TAX[j],PTRATIO[j],LSTAT[j],MEDV[j],theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12)
        dertheta2=dertheta0+L2(CRIM[j],ZN[j],INDUS[j],CHAS[j],NOX[j],RM[j],AGE[j],DIS[j],RAD[j],TAX[j],PTRATIO[j],LSTAT[j],MEDV[j],theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12)
        dertheta3=dertheta0+L3(CRIM[j],ZN[j],INDUS[j],CHAS[j],NOX[j],RM[j],AGE[j],DIS[j],RAD[j],TAX[j],PTRATIO[j],LSTAT[j],MEDV[j],theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12)
        dertheta4=dertheta0+L4(CRIM[j],ZN[j],INDUS[j],CHAS[j],NOX[j],RM[j],AGE[j],DIS[j],RAD[j],TAX[j],PTRATIO[j],LSTAT[j],MEDV[j],theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12)
        dertheta5=dertheta0+L5(CRIM[j],ZN[j],INDUS[j],CHAS[j],NOX[j],RM[j],AGE[j],DIS[j],RAD[j],TAX[j],PTRATIO[j],LSTAT[j],MEDV[j],theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12)   
        dertheta6=dertheta0+L6(CRIM[j],ZN[j],INDUS[j],CHAS[j],NOX[j],RM[j],AGE[j],DIS[j],RAD[j],TAX[j],PTRATIO[j],LSTAT[j],MEDV[j],theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12)
        dertheta7=dertheta0+L7(CRIM[j],ZN[j],INDUS[j],CHAS[j],NOX[j],RM[j],AGE[j],DIS[j],RAD[j],TAX[j],PTRATIO[j],LSTAT[j],MEDV[j],theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12)  
        dertheta8=dertheta0+L8(CRIM[j],ZN[j],INDUS[j],CHAS[j],NOX[j],RM[j],AGE[j],DIS[j],RAD[j],TAX[j],PTRATIO[j],LSTAT[j],MEDV[j],theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12) 
        dertheta9=dertheta0+L9(CRIM[j],ZN[j],INDUS[j],CHAS[j],NOX[j],RM[j],AGE[j],DIS[j],RAD[j],TAX[j],PTRATIO[j],LSTAT[j],MEDV[j],theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12)
        dertheta10=dertheta0+L10(CRIM[j],ZN[j],INDUS[j],CHAS[j],NOX[j],RM[j],AGE[j],DIS[j],RAD[j],TAX[j],PTRATIO[j],LSTAT[j],MEDV[j],theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12)
        dertheta11=dertheta0+L11(CRIM[j],ZN[j],INDUS[j],CHAS[j],NOX[j],RM[j],AGE[j],DIS[j],RAD[j],TAX[j],PTRATIO[j],LSTAT[j],MEDV[j],theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12)
        dertheta12=dertheta0+L12(CRIM[j],ZN[j],INDUS[j],CHAS[j],NOX[j],RM[j],AGE[j],DIS[j],RAD[j],TAX[j],PTRATIO[j],LSTAT[j],MEDV[j],theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12)
    theta0=theta0+learning_rate*dertheta0
    theta1=theta1+learning_rate*dertheta1
    theta2=theta2+learning_rate*dertheta2
    theta3=theta3+learning_rate*dertheta3
    theta4=theta4+learning_rate*dertheta4
    theta5=theta5+learning_rate*dertheta5
    theta6=theta6+learning_rate*dertheta6
    theta7=theta7+learning_rate*dertheta7
    theta8=theta8+learning_rate*dertheta8
    theta9=theta9+learning_rate*dertheta9
    theta10=theta10+learning_rate*dertheta10
    theta11=theta11+learning_rate*dertheta11
    theta12=theta12+learning_rate*dertheta12
    for k in range(l):
        Loss1=Loss1+L(CRIM[k],ZN[k],INDUS[k],CHAS[k],NOX[k],RM[k],AGE[k],DIS[k],RAD[k],TAX[k],PTRATIO[k],LSTAT[k],MEDV[k],theta0,theta1,theta2,theta3,theta4,theta5,theta6,theta7,theta8,theta9,theta10,theta11,theta12)
    Loss.append(Loss1)

在梯度下降更新完成后，我们来看一下损失函数的收敛曲线图

损失函数收敛图

将特征变量放入一个数组中

特征变量数组

最后我们来查看一下测试集情况

for i in range(100):

    print("true:\t{}".format(test_y[i]),end="\t")

    pre = np.dot(theta,test_x[i])+theta0

    print("guess:\t{}".format(pre))

plt.show()

测试集情况

梯度下降和线性回归（二）波士顿房价python代码实现