大师兄的数据分析学习笔记(二十一）：线性回归

大师兄的数据分析学习笔记(二十）：分类集成（二）
大师兄的数据分析学习笔记(二十二）：逻辑回归（Logistic Regression）

一、关于回归

回归分析(regression analysis)是确定多个变量间相互依赖的定量关系的一种统计分析方法，其中：

自变量叫特征。

因变量叫标注(连续值)。

回归要考虑模型的复杂度和准确度，以及对未知数据预测的准确性。
回归分析主要分为线性回归、决策树、支持向量机、集成方法、罗吉斯特映射和人工神经网络几个部分的回归方法。

二、线性回归

多个变量间的关系，用线性方式表达，叫做线性回归。
线性回归是最简单的回归之一。
在线性回归中，假设有以下三个矩阵，代表线性回归中重要的三个成分：

参数矩阵： $\vec{\omega} = [\omega_1,\omega_2,...\omega_m]$

特征矩阵： $\vec{X} = [\vec{X_1},\vec{X_2},...\vec{X_m}]^T$

标注矩阵： $\vec{Y} = [y_1,y_2,...,y_m]^T$

通过 $\omega$ 和 $X$ 的线性变换，可以得到线性的变换值，这个过程就是 $H(\vec{X}) = \vec{\omega}\vec{X}$ 。

其中 $X_m$ 可以看做数据的每一行， $\omega_m$ 和 $X_m$ 相乘，代表参数和数据的每一行相乘。

线性回归的目标是让 $H(\vec{X})$ 和 $Y$ 的差尽可能小。

1. 最小二乘法

最小二乘法就是通过最小化误差的平方和寻找数据的最佳函数匹配。
$H(\vec{X}) = \vec{\omega}\vec{X} ->\begin{cases} a=\frac{\sum{Y_i}}{n}-b\frac{\sum{X_i}}{n}\\b=\frac{n\sum^nX_iY_i-\sum^n{X_i}\sum{Y_i}}{n\sum{X_i}^2-(\sum{X_i})^2} \end{cases} ->\vec{\omega}=(\vec{X}^T\vec{X})^{-1}X^T\vec{Y}$
最小二乘法本质是在求 $\omega$ 的最小值： $min(J(\vec{\omega})) = \frac{1}{2m}\sum_{i=1}^m(H(\vec{X_i})-y_i)^2$ ，其中：

$H(\vec{X_i})$ 代表线性变化后的值。

$y$ 代表真实值。

$\frac{1}{2m}$ 是一个系数，可以忽略。

用变化后的值减真实值取平方，获得一个正数的和，并求这个和的最小值，就可以获得考虑每个点的差距后的最小误差和。

而满足上面条件的 $\omega$ 就是最后确定的 $\omega$ 。

2. 梯度下降法

梯度的定义为:

设函数 $f(x,y)$ 在平面区域 $D$ 内具有一阶连续偏导数，

则对没一点 $P(x_0,y_0)$ 都可以定出一个向量： $f_x(x_0,y_0)\vec{i}+f_y(x_0,y_0)\vec{j}$ ，

称为 $f(x,y)$ 在P点处的梯度，记为 $\nabla(x_0,y_0)$ 。

导数是标量，是斜度的大小；梯度是矢量，是各个方向上的导数的大小。
同时，梯度要求函数具有一阶偏导，也就是说每个参数的分量都要可导。
梯度的方向指的是一个点最大的上升方向：

就像蒙眼在山上走时，只沿着最高的方向走。

按照这个方法，最终会走到一个山头，但不知是不是山顶。

而梯度下降法和上面的方法相反，是向梯度最大方向的反方向走。
这里的点每往下走一步，就会再计算一次，所以涉及到步长的概念：

如果步长太小，迭代次数就会太多，计算到极小值的过程就会很慢。

如果步长太大，就会绕着极小值跳跃，而不能达到收敛效果。

所以步长的设定需要根据梯度，梯度越大，步长越大。

求最小值的过程： $min(J(\vec{\omega})) = \frac{1}{2m}\sum_{i=1}^m(H(\vec{X_i})-y_i)^2->\omega_j:=\omega_j-\alpha\frac{\partial{J}(\vec{\omega})}{\partial\omega_j}$

其中 $\alpha$ 表示步长。

$\frac{\partial{J}(\vec{\omega})}{\partial\omega_j}$ 表示梯度。

如果一个函数是凸函数，那么他的极小值就是最小值,可以进行凸优化：

$f(\lambda{x_i}+(1-\lambda)x_2)\leq\lambda{f(x_1)+(1-\lambda)f(x_2)}$

即函数上的值小于连线上的值。

3. 正则化

在梯度下降法中，会有以下两种情况会导致取不到最小值：

系统误差：有的时候直接求出的参数，由于舍入误差等系统误差的影响，或者某些点被错误标注，导致参数间的间距非常大。

多极值点：由于函数不是凸函数，导致最终取得的点不是需要的点。

上面的情况中，有些权值会被放大，有些权值会被弱化，导致预测效果差，所以需要使用正则化。

3.1 岭回归

岭回归(ridge regression)是一种专用于共线性数据分析的有偏估计回归方法，实质上是一种改良的最小二乘估计法，通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法，对病态数据的拟合要强于最小二乘法。
$H(\vec{X}) = \vec{\omega}\vec{X}->min(\sum_{i}^m(H(\vec{X_i})-y_i)^2+\alpha||\vec{\omega}||_2^2)$

其中 $\alpha||\vec{\omega}||_2^2$ 表示一个函数的二范数。

增加二范数的意义，是让函数更倾向取比较小的值，而放弃参数比较大的选择。

3.1 Lasso

Lasso算法(least absolute shrinkage and selection operator)，是一种同时进行特征选择和正则化（数学）的回归分析方法，旨在增强统计模型的预测准确性和可解释性。
与岭回归类似，但Lasso使用了一范数：

$H(\vec{X}) = \vec{\omega}\vec{X}->min(\sum_{i}^m(H(\vec{X_i})-y_i)^2+\alpha||\vec{\omega}||_1)$

4. 代码实现

>>>import os
>>>import pandas as pd
>>>from sklearn.preprocessing import MinMaxScaler
>>>from sklearn.linear_model import LinearRegression
>>>from sklearn.metrics import mean_squared_error

>>>def regression_test(features:pd.DataFrame,label:pd.DataFrame):
>>>    r = LinearRegression()
>>>    r.fit(features.values,label.values)
>>>    Y_pred = r.predict(features.values)
>>>    print(f"Coef:{r.coef_}")
>>>    print(f"MSE:{mean_squared_error(Y_pred,label.values)}")


>>>if __name__ == '__main__':
>>>    # 处理数据
>>>    df = pd.read_csv(os.path.join(".", "data", "WA_Fn-UseC_-HR-Employee-Attrition.csv"))
>>>    label = df.Age
>>>    features = pd.DataFrame(MinMaxScaler().fit_transform(df.HourlyRate.values.reshape(-1,1)).reshape(1,-1)[0])
>>>
>>>    # 计算回归
>>>    regression_test(features, label)
Coef:[0.76394992]
MSE:83.34908532565534

大师兄的数据分析学习笔记(二十一）：线性回归

一、关于回归

二、线性回归

1. 最小二乘法

2. 梯度下降法

3. 正则化

3.1 岭回归

3.1 Lasso

4. 代码实现

推荐阅读更多精彩内容