01- 线性回归
线性回归是一种统计分析方法,用于建立自变量与因变量之间的线性关系模型.这种函数是一个或多个称为回归系数的模型参数的线性组合。
值得注意的是,线性只是说回归系数之间是线性关系即可,自变量不是一次没有关系。
2-OLS(Ordinary Least Squares,最小二乘法)
OLS(Ordinary Least Squares,最小二乘法)是线性回归中最常用的估计方法之一,用于估计线性回归模型中的参数。最小二乘法是通过最小化样本真值与预测值之间的方差和来达到计算出 的值,
原理为:
OLS是线性回归中最常用的估计方法之一,通过最小化观测值与回归模型的预测值之间的残差平方和,来确定最佳的参数估计。OLS方法假设残差(观测值与预测值之间的差异)服从正态分布,并且具有恒定的方差。
from sklearn import linear_model
import numpy as np
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
boston = load_boston()
datas = boston.data
target = boston.target
name_data = boston.feature_names
fig = plt.figure()
fig.set_size_inches(14, 9)
for i in range(13):
ax = fig.add_subplot(4, 4, i+1)
x = datas[:, i]
y = target
plt.title(name_data[i])
ax.scatter(x, y)
plt.tight_layout() # 自动调整子图间距
plt.show()
j_ = []
for i in range(13):
if name_data[i] == 'RM':
continue
if name_data[i] =='LSTAT':
continue
j_.append(i)
x_data = np.delete(datas, j_, axis=1)
X_train, X_test, y_train, y_test = train_test_split(x_data, target, random_state=0, test_size=0.20)
lr = linear_model.LinearRegression()
lr.fit(X_train, y_train)
lr_y_predict = lr.predict(X_test)
score = lr.score(X_test, y_test)
print(score)
print("w0:",lr.intercept_)
print("w1,w2:", lr.coef_)
2 - 岭回归(Ridge Regression)
岭回归(Ridge Regression)是线性回归的一种扩展方法,用于解决线性回归中的多重共线性问题。它与OLS(Ordinary Least Squares,最小二乘法)是线性回归中的两种不同的估计方法。
岭回归是在OLS的基础上进行改进,用于解决多重共线性
问题。多重共线性指的是在回归分析中自变量之间存在高度相关性的情况,这会导致OLS估计的不稳定性和方差增加。岭回归通过添加一个正则化项(Ridge Penalty)来调整OLS估计的偏差-方差平衡,从而改善参数估计的稳定性。
具体来说,岭回归通过在最小化残差平方和的同时,加入一个惩罚项,该惩罚项是参数向量的范数(平方和的平方根)乘以一个调节参数
。这个惩罚项限制了参数的增长,使得参数估计在存在共线性时更稳定。
Lasso回归
Lasso回归(Least Absolute Shrinkage and Selection Operator Regression)是一种线性回归的统计方法,用于估计
具有稀疏解
的线性模型。它通过添加一个正则化项来调整OLS(最小二乘法)估计的偏差-方差平衡,以实现变量选择和参数收缩。
Lasso回归与岭回归类似,都是对OLS的改进方法。不同之处在于,Lasso回归使用的是正则化项,而不是岭回归中的
正则化项。
正则化项是参数向量的
范数(绝对值之和),它具有一个重要的特性,即可以使得某些参数估计变为零,从而实现变量的选择和稀疏性。
Lasso回归的目标函数由两部分组成:残差平方和和正则化项的加权和。通过最小化这个目标函数,Lasso回归可以在保持较低的残差的同时,将一些不重要的变量的系数估计收缩为零,从而实现变量的选择和模型的简化。
Lasso回归在特征选择和维度约简方面具有优势,特别适用于处理高维数据集和具有大量变量的回归问题。通过对Lasso回归中的正则化参数进行调整,可以控制收缩的程度,并在平衡模型复杂度和拟合优度之间做出权衡。
需要注意的是,Lasso回归的特点是对参数估计进行了稀疏化处理,因此适用于具有稀疏解的情况。对于存在多重共线性的情况,岭回归可能更适合使用。
总结起来,Lasso回归是一种线性回归的改进方法,通过添加正则化项实现变量选择和参数收缩。它在高维数据集和特征选择问题中具有应用价值,并能够产生稀疏解。