原理
机器学习就是定义一个f(x),找到f(x)的最佳参数,让的过程。那么如何找到这个最佳参数呢?
梯度学习就是应用最广泛的一种方法。
为什么需要梯度下降
每个模型都有自己的损失函数,训练一个模型的过程,就是找到使损失函数最小的最佳参数的过程。在简单的线性回归中,我们通过最小二乘法来求解参数;但是一般损失函数都是比较复杂的,很难通过求解得到。这时候,我们就可以通过梯度下降去求解。
梯度下降算法作为一个聪明很多的算法,抓住了参数与损失值之间的导数,也就是能够计算梯度(gradient),通过导数告诉我们此时此刻某参数应该朝什么方向,以怎样的速度运动,能安全高效降低损失值,朝最小损失值靠拢。
什么是梯度
多元函数的导数就是梯度,对每个变量进行微分,然后用逗号分隔,因此梯度是一个向量,代表了下降的方向。
假设有个二元函数,求偏导为
那么在点(1,2),梯度
在单变量函数中,梯度代表函数的微分,代表着函数在某个点的斜率;
对于多变量函数,梯度代表是一个向量,代表在给定点上升最快的方向
梯度指向误差值增加最快的方向。我们的目标是找到损失函数(也就是误差)最小对应的参数,因此我们需要沿着反梯度的方向进行搜索。
理解梯度下降
梯度下降就是从群山中山顶找一条最短的路走到山谷最低的地方。
一个人被困在山上,需要从山顶到山谷。但此时雾很大,看不清下山的路径。他必须利用自己周围的信息去找到下山的路径。这个时候,他就可以利用梯度下降算法来帮助自己下山。具体来说就是,以他当前的所处的位置为基准,随机选择一个方向,然后每次迈步都选择最陡的方向。然后每走一段距离,都反复采用同一个方法:如果发现脚下的路是下坡,就顺着最陡的方向走一步,如果发现脚下的路是上坡,就逆着方向走一步,最后就能成功的抵达山谷。
从数学的角度出发,针对损失函数L,可以证明按照负梯度的方向移动,损失函数最终能够达到一个最小值。
那么我们就可以得到损失函数值(也就是下一步的落脚点)的迭代公式:
针对于上述公式,有一些常见的问题:
为什么要梯度要乘以一个负号?
我们已经知道:梯度的方向就是损失函数值在此点上升最快的方向,是损失增大的区域,而我们要使损失最小,因此就要逆着梯度方向走,自然就是负的梯度的方向,所以此处需要加上负号
关于参数 :
我们已经知道,梯度对应的是下山的方向,而参数 对应的是步伐的长度。在学术上,我们称之为“学习率”(learning rate),是模型训练时的一个很重要的超参数,能直接影响算法的正确性和效率:
- 首先,学习率不能太大。因此从数学角度上来说,一阶泰勒公式只是一个近似的公式,只有在学习率很小,也就是很小时才成立。并且从直观上来说,如果学习率太大,那么有可能会“迈过”最低点,从而发生“摇摆”的现象(不收敛),无法得到最低点
- 其次,学习率又不能太小。如果太小,会导致每次迭代时,参数几乎不变化,收敛学习速度变慢,使得算法的效率降低,需要很长时间才能达到最低点。
缺点:
梯度算法只能达到局部最优解,不是全局最优解。
那么对应的解决方案如下:首先随机产生多个初始参数集,即多组;然后分别对每个初始参数集使用梯度下降法,直到函数值收敛于某个值;最后从这些值中找出最小值,这个找到的最小值被当作函数的最小值。当然这种方式不一定能找到全局最优解,但是起码能找到较好的。
对于梯度下降来说,初始点的位置,也是一个超参数。
线性回归梯度下降代码
def fit_gd(self, X_train, y_train, eta=0.01, n_iters=1e4):
"""根据训练数据集X_train, y_train, 使用梯度下降法训练Linear Regression模型"""
assert X_train.shape[0] == y_train.shape[0], \
"the size of X_train must be equal to the size of y_train"
def J(theta, X_b, y):
try:
return np.sum((y - X_b.dot(theta)) ** 2) / len(y)
except:
return float('inf')
def dJ(theta, X_b, y):
return X_b.T.dot(X_b.dot(theta) - y) * 2. / len(y)
def gradient_descent(X_b, y, initial_theta, eta, n_iters=1e4, epsilon=1e-8):
theta = initial_theta
cur_iter = 0
while cur_iter < n_iters:
gradient = dJ(theta, X_b, y)
last_theta = theta
theta = theta - eta * gradient
if (abs(J(theta, X_b, y) - J(last_theta, X_b, y)) < epsilon):
break
cur_iter += 1
return theta
X_b = np.hstack([np.ones((len(X_train), 1)), X_train])
initial_theta = np.zeros(X_b.shape[1])
self._theta = gradient_descent(X_b, y_train, initial_theta, eta, n_iters)
self.intercept_ = self._theta[0]
self.coef_ = self._theta[1:]
return self
然后使用向量化的方式编写代码,但是发现在真实数据中效果比较差,这是因为数据的规模不一样,因此在梯度下降之前需要使用归一化。