梯度下降

原理

机器学习就是定义一个f(x)，找到f(x)的最佳参数，让的过程。那么如何找到这个最佳参数呢？

梯度学习就是应用最广泛的一种方法。

为什么需要梯度下降

每个模型都有自己的损失函数，训练一个模型的过程，就是找到使损失函数最小的最佳参数的过程。在简单的线性回归中，我们通过最小二乘法来求解参数；但是一般损失函数都是比较复杂的，很难通过求解得到。这时候，我们就可以通过梯度下降去求解。

梯度下降算法作为一个聪明很多的算法，抓住了参数与损失值之间的导数，也就是能够计算梯度（gradient），通过导数告诉我们此时此刻某参数应该朝什么方向，以怎样的速度运动，能安全高效降低损失值，朝最小损失值靠拢。

什么是梯度

多元函数的导数就是梯度，对每个变量进行微分，然后用逗号分隔，因此梯度是一个向量，代表了下降的方向。

$\Delta L = (\frac{\partial L}{\partial a},\frac{\partial L}{\partial b})$

假设有个二元函数 $f(x) = x_1^2+x_1x_2-3x_2$ ，求偏导为
$\Delta f =(\frac{\partial f}{\partial x_1},\frac{\partial f}{\partial x_2})=（2x_1+x_2, x_1-3）$

那么在点（1，2），梯度 $\Delta = (4, -2)$

在单变量函数中，梯度代表函数的微分，代表着函数在某个点的斜率；

对于多变量函数，梯度代表是一个向量，代表在给定点上升最快的方向

梯度指向误差值增加最快的方向。我们的目标是找到损失函数（也就是误差）最小对应的参数，因此我们需要沿着反梯度的方向进行搜索。

理解梯度下降

梯度下降就是从群山中山顶找一条最短的路走到山谷最低的地方。

一个人被困在山上，需要从山顶到山谷。但此时雾很大，看不清下山的路径。他必须利用自己周围的信息去找到下山的路径。这个时候，他就可以利用梯度下降算法来帮助自己下山。具体来说就是，以他当前的所处的位置为基准，随机选择一个方向，然后每次迈步都选择最陡的方向。然后每走一段距离，都反复采用同一个方法：如果发现脚下的路是下坡，就顺着最陡的方向走一步，如果发现脚下的路是上坡，就逆着方向走一步，最后就能成功的抵达山谷。

image.png

从数学的角度出发，针对损失函数L，可以证明按照负梯度的方向移动，损失函数最终能够达到一个最小值。

那么我们就可以得到损失函数值（也就是下一步的落脚点）的迭代公式：

$(a_{k+1},b_{k+1} =(a_k-\eta \frac{\partial L}{\partial a},b_k-\eta \frac{\partial L}{\partial b}) )$

针对于上述公式，有一些常见的问题：

为什么要梯度要乘以一个负号？

我们已经知道：梯度的方向就是损失函数值在此点上升最快的方向，是损失增大的区域，而我们要使损失最小，因此就要逆着梯度方向走，自然就是负的梯度的方向，所以此处需要加上负号

关于参数 :

我们已经知道，梯度对应的是下山的方向，而参数对应的是步伐的长度。在学术上，我们称之为“学习率”(learning rate)，是模型训练时的一个很重要的超参数，能直接影响算法的正确性和效率：

首先，学习率不能太大。因此从数学角度上来说，一阶泰勒公式只是一个近似的公式，只有在学习率很小，也就是很小时才成立。并且从直观上来说，如果学习率太大，那么有可能会“迈过”最低点，从而发生“摇摆”的现象（不收敛），无法得到最低点
其次，学习率又不能太小。如果太小，会导致每次迭代时，参数几乎不变化，收敛学习速度变慢，使得算法的效率降低，需要很长时间才能达到最低点。

缺点：

梯度算法只能达到局部最优解，不是全局最优解。

那么对应的解决方案如下：首先随机产生多个初始参数集，即多组；然后分别对每个初始参数集使用梯度下降法，直到函数值收敛于某个值；最后从这些值中找出最小值，这个找到的最小值被当作函数的最小值。当然这种方式不一定能找到全局最优解，但是起码能找到较好的。

对于梯度下降来说，初始点的位置，也是一个超参数。

线性回归梯度下降代码

def fit_gd(self, X_train, y_train, eta=0.01, n_iters=1e4):
    """根据训练数据集X_train, y_train, 使用梯度下降法训练Linear Regression模型"""
    assert X_train.shape[0] == y_train.shape[0], \
        "the size of X_train must be equal to the size of y_train"

    def J(theta, X_b, y):
        try:
            return np.sum((y - X_b.dot(theta)) ** 2) / len(y)
        except:
            return float('inf')
        
    def dJ(theta, X_b, y):
        return X_b.T.dot(X_b.dot(theta) - y) * 2. / len(y)

    def gradient_descent(X_b, y, initial_theta, eta, n_iters=1e4, epsilon=1e-8):

        theta = initial_theta
        cur_iter = 0

        while cur_iter < n_iters:
            gradient = dJ(theta, X_b, y)
            last_theta = theta
            theta = theta - eta * gradient
            if (abs(J(theta, X_b, y) - J(last_theta, X_b, y)) < epsilon):
                break

            cur_iter += 1

        return theta

    X_b = np.hstack([np.ones((len(X_train), 1)), X_train])
    initial_theta = np.zeros(X_b.shape[1])
    self._theta = gradient_descent(X_b, y_train, initial_theta, eta, n_iters)

    self.intercept_ = self._theta[0]
    self.coef_ = self._theta[1:]

    return self

然后使用向量化的方式编写代码，但是发现在真实数据中效果比较差，这是因为数据的规模不一样，因此在梯度下降之前需要使用归一化。

梯度下降

原理

为什么需要梯度下降

什么是梯度

理解梯度下降

线性回归梯度下降代码

相关阅读更多精彩内容

友情链接更多精彩内容